AI 技術前沿

Swyx 公開承認去年講錯：開源模型回升、Post-training 值得做，下一個 Frontier 是世界模型

Swyx 在 Latent Space 與 Unsupervised Learning 跨刀單集尾段做了一件這個圈子很少見的事：公開承認自己去年兩個判斷錯了。第一，他過去看衰開源模型，現在收回，Fireworks、Together 跑得飛快，前 20% 的 agent lab 越用越多開源模型。第二,他原本覺得 post-training 在三個月模型週期裡沒意義,現在改口,因為「你丟得掉權重，但丟不掉資料」。接著他展望下一個 frontier：dark factories 的第二級（零人類審查）、多輪 RL，最終落到記憶、個人化、世界模型。本系列共三篇，這是第三篇。

2026 年 5 月 4 日 · 來源： Latent Space x Unsupervised Learning

Swyx 公開承認去年講錯：開源模型回升、Post-training 值得做，下一個 Frontier 是世界模型

本文整理自《Latent Space》與《Unsupervised Learning》2026 年 4 月 23 日的跨刀單集《AIE Europe Debrief + Agent Labs Thesis》，主持人是 Redpoint 投資合夥人 Jacob Effron，受訪者是 Latent Space 主持人、AI Engineer 大會策展人、現任 Cognition 員工 Swyx（Shawn Wang）。本系列共三篇，這是第三篇談 Swyx 公開承認的兩個轉念、dark factories 的下一級，以及他認為真正重要的下一個 frontier；第一篇談 AI 寫程式戰爭的市場結構，第二篇談 Swyx 的 2026 大論：寫程式 Agent 破籠。

{{< apple-podcast "tw/podcast/aie-europe-debrief-agent-labs-thesis-unsupervised-learning/id1674008350?i=1000763306891" >}}

「我去年講錯了」：Swyx 對自己過去判斷的公開回收

Jacob 在訪談接近尾段時拋了一個他每集都會問來賓的問題：「過去這一年，你改變心意最多的一件事是什麼？」這個問題對多數來賓只是儀式性的收尾，但 Swyx 把它接成兩個完整的論述。他先講了一個方法論，再講具體的兩件事。方法論這樣說：「當你發現自己錯過一次，就要回頭把所有相關的判斷都重新校準一次。錯一個地方，往往代表你身上有一整套相關的偏見。」

這是 Swyx 的學習率調整原則。他用機器學習裡的學習率（learning rate）做類比，當你一次梯度更新後發現自己飄到錯誤方向，要把學習率拉高一點重新探索。對人類觀察者來說，這意味著錯一次之後不要只修正當下那個錯誤，要把跟這個錯誤共享同一套世界觀的其他判斷也重新審視。Swyx 自己這集承認的兩個轉念，剛好就是用這個原則找出來的兩個方向：開源模型，與 post-training。

這個自我修正的姿態在 AI 評論圈不太常見。多數有名的 AI 觀察者錯了之後會悄悄改口，或是用「我說過這個但沒人聽進去」的方式重寫歷史。Swyx 這段在公開節目上把自己的錯講清楚，是因為他做 podcast 跟做大會的角色都需要可信度，而可信度來自願意把自己錯的部分攤開。對寫東西、做評論的人來說，這個示範值得收進工具箱裡。

轉念 #1：開源模型回升，Fireworks 與 Together 跑很快

Swyx 去年對開源模型相對悲觀。當時他剛訪問完 Brain Trust 的 Ankur Goyal，Ankur 引述自家平台的數據說開源模型只有 5% 市場份額，而且還在掉。Swyx 那時的判斷是：開源模型在「絕對能力」上跟頂尖閉源模型差距越拉越大，市場份額萎縮是合理的演化結果。一年過去，他承認這個判斷錯了，現在的數字是往上的，不是往下的。

要理解為什麼他改口，要先理解他現在怎麼看「市場份額」這個問題。Swyx 的新方法論是不要看平均，要看分位數：把整個 AI 產業切成「頂部 20%」與「中段 80%」，這兩個族群的行為差異大到不應該放在同一個指標裡平均。中段 80% 的公司，多半就是把現成的閉源 API 串一串、做個 GPT wrapper，他們的開源模型使用率確實在下降。但頂部 20% 的 agent lab、嚴肅在訓練自家模型的公司，他們的開源模型使用率明顯上升。「我只在乎頂部 20%，因為他們是先行者，他們今天的選擇是中段 80% 一年後的選擇。」

具體訊號是 Fireworks AI 跟 Together AI 兩家開源推論服務商過去一年的成長曲線。兩家公司的營收 Swyx 沒給數字（他不在這兩家上班，沒有第一手資料），但他從業界觀察的結論是「兩家都跑得飛快」。連帶讓「fine-tuning-as-a-service」這個過去一年被宣告死掉的市場活回來：當開源模型的能力夠用、企業願意在開源模型上做客製化微調，這個服務模式就有空間。Swyx 自己過去也說過 fine-tuning-as-a-service 沒搞頭，這次他連這個附帶判斷一起收回。

這個轉念對臺灣有兩層意義。第一層，本地的 AI 服務商如果押在「閉源 API 之上做包裝」這個方向，要重新評估自己有沒有掉進中段 80% 的陷阱。第二層，臺灣自己長出開源模型生態的可能性比一年前看起來大：如果 Fireworks、Together 能在不訓練模型只做推論服務的位置上跑成大公司，這個位置在亞洲也應該有玩家能切。資料中心、推論晶片、推論服務，是一條臺灣硬體優勢可以延伸的鏈條。

轉念 #2：Post-training 值得做，「丟得掉權重，丟不掉資料」

第二個轉念跟 post-training（後訓練，包含 RLHF、SFT、DPO、GRPO 這些把預訓練好的模型再「調」一次的方法）有關。Swyx 過去一年的判斷是這樣：模型迭代週期是三個月，你今天花力氣 post-train 一個版本，三個月後新模型出來把你的 post-train 結果擦掉。所以 post-training 對成本跟延遲有意義，但對「品質提升」沒意義，因為你做的東西就是會被下一代模型免費吃進去。

Jacob 在訪談裡先講了一段有趣的觀察讓 Swyx 改口。Jacob 提到，一群應用層公司（Sierra、Legora、Bridge）已經接受「我們做的東西每三個月會丟掉重做」這個現實，他們的工作就是站在當下模型能做到的邊緣寫程式，模型進步了就把過時的部分扔掉。如果應用層公司接受了這個三個月汰舊的節奏，那 post-training 為什麼不能用同樣的邏輯看？只要這三個月內，post-training 是你能為客戶做的「最有價值的事」，它就值得做。

Swyx 在 Jacob 這段補刀後立刻接住，丟出這集最關鍵的一句金句：「你丟得掉權重，但丟不掉資料。」Post-training 的真正資產不是模型本身，是你為了 post-training 收集、整理、標記、驗證的資料。模型三個月後扔掉，重新用同一份資料 post-train 新模型，你的結果會比沒做過這件事的人好。這句話完整改寫了 post-training 的成本效益分析：你不是在投資一個會折舊的資產，你是在投資一個會延續到下一代模型的資料庫。

附帶的訊號是 Swyx 提到的兩個關鍵詞：long trajectory（長軌跡）跟 synthetic rubrics（合成評分標準）。他特別點名一篇叫 Dr. GRPO 的研究，作為 RL 方法論大幅進化的代表。過去一年的 RL 多半是淺層 SFT 跟單輪 RL，現在這一波在做的是「幾百輪」的多步 RL，把複雜的領域邏輯一輪一輪餵進去。這個方向讓 Swyx 認為，post-training 不只值得做，而且接下來會打開一個全新的「完全領域客製」空間：你可以把任何特定領域的知識用這套方法包進模型權重裡，不再依賴 prompt engineering 跟 RAG。

Dark Factories 第二級：零人類審查的「非公開」前沿

Swyx 在轉念之後接著講一個還沒被廣泛討論、但他認為是寫程式 Agent 下一個重大躍升的概念：dark factories（暗工廠）。這個詞 Simon Willison 在 5 月初的 Lenny's Podcast 上講過，AINEXT 已經寫過 Simon 視角的版本。Swyx 的版本不太一樣，他從寫程式心理症候群（AI coding psychosis）的進階分級切入。

第一級是「零人類寫的程式碼」。這個情境 Swyx 五個月前在 Cognition 內部第一次遇到的時候還覺得不可思議，現在已經是合理常態。整個產品團隊的程式碼，幾乎全部由代理人寫，工程師退到 review、test、deploy 的位置。第二級才是真正的下一個前沿：「零人類審查」。意思是代理人寫完程式碼，沒有任何人類看一眼，就直接 commit、build、deploy。Swyx 說這個情境聽起來「跟五個月前『零人類寫程式碼』一樣瘋狂，但只有 OpenAI 在認真探索」。

要讓零人類審查可行，整個軟體開發生命週期（SDLC）要被翻過來。傳統的安全網是 code review，把可能的錯誤在合進主分支前攔下。當這個關卡被拿掉，必須有等量的安全機制接住：更密的單元測試、自動驗證、模糊測試、形式化驗證。Swyx 的判斷是這些事情本來就該做，只是過去靠 code review 的安全感讓大家拖著不做。AI 代理人寫程式碼的速度逼著大家把這些「應該做但沒做」的工程習慣補起來。

「Quantity helps you get to quality.」這是 Swyx 給 dark factories 的金句。多數工程師對「量大」直覺反應是「品質會掉」，但他認為反過來：當你被迫應付十倍量的程式碼產出，你會被逼著建立十倍精細的驗證機制，最後得到的整體品質反而更高。這個論點對臺灣的工程主管特別重要：當你看到下面工程師被代理人帶著跑、產出量暴增的時候，不要本能地踩剎車，要做的是補上那些對應的驗證基礎建設。

下一個 Frontier #1：記憶與個人化才是真正的瓶頸

談完已經發生的轉變，Jacob 問 Swyx「你接下來會盯什麼方向」。Swyx 給了兩個答案，第一個是記憶與個人化。他先用一個讓人意外的數字說明問題：上下文長度（context length）是 LLM 的所有面向裡，擴展速度最慢的一個。從 4K 走到 1M token 用了大約三年，Gemini 的 1M context 已經提供兩年了，「幾乎沒人在用」。

Swyx 對這個數字的解讀很犀利。表面上看上下文長度是個容量問題，加倍就好。實際上是個產品問題，使用者不知道怎麼把那麼長的上下文有效塞進去，模型對長上下文的注意力分配也不均勻。長上下文不會自動變成「記憶」，因為記憶要的是長期、跨對話、可挑選性檢索的能力，而長上下文只是把更多東西塞進當下的這次推論。「記憶會是接下來最大的一個限制條件，不是運算、不是模型大小。」

這個判斷對產品端有具體推論。第一，誰先把記憶系統做對，誰就拿到下一個 Resend 等級的 LLM 推薦紅利。上一篇講的「擠進 Claude 推薦清單」這個遊戲，會被個人化記憶系統徹底改寫。第二，目前的 AEO（AI Engine Optimization）打法依賴的是頻率，誰被提到次數多誰排前面；當記憶系統成熟，推薦邏輯會變成「這個使用者過去用過什麼、喜歡什麼」，這個邏輯下品牌的權力會大幅下滑，使用者的個人偏好會壓過品牌行銷。

值得一提的是，Swyx 在訪談裡承認這個方向他也沒答案，「我們在記憶這件事上感覺已經卡住了」。產業裡所有大實驗室都在做，但沒有一個人能說清楚下一個突破口在哪。OpenAI、Anthropic、Google 都有 memory beta 功能，但都還停在「使用者主動記下來、使用者主動回顧」的層級，沒有真正的長期、自適應、跨任務記憶。對研究者來說這是一個值得壓年的方向，對應用層創業者來說這是一個還沒有人占住的空位。

下一個 Frontier #2：世界模型不是機器人，是真正的智慧

Swyx 點的第二個 frontier 是世界模型（world models），他連著 Fei-Fei Li 的論點一起講。李飛飛今年寫的那篇 spatial intelligence 論文是 Swyx 心目中的年度必讀，他在 Latent Space 上做了一系列討論，從李飛飛談到月之暗面（Moon Lake）、General Intuition 這些做世界模型的公司。

Swyx 對世界模型的論述有一個重要修正：不要把世界模型理解成「機器人或遊戲」。多數人聽到 world models，想到的是 3D 互動環境、機器人模擬、生成式遊戲場景。Swyx 說這些都是世界模型的應用，但不是世界模型的本質。「世界模型真正在做的事，是讓 AI 對物理跟物質有一個真正的概念。」這句話聽起來抽象，但他用《心靈捕手》（Good Will Hunting）裡 Matt Damon 跟 Robin Williams 那場戲當比喻，把這個概念落到非常具體。

那場戲裡，Matt Damon 演的天才一邊倒地引述書本知識，把心理諮商師 Robin Williams 完全壓制。Robin Williams 後來那段反擊大致是這樣：你讀過所有的書、知道所有的歷史，但你沒有真的去過西斯廷教堂、沒有真的拿著愛人的手、沒有真的失去過誰。Swyx 對這場戲的解讀是：「今天的 LLM 就是 Matt Damon 那個角色，知道一切（從書本上），但什麼都沒體驗過。」世界模型要解的，是把「體驗」這個 LLM 沒有的維度加進來。AI 知道桌子是什麼，但它沒有真的撞到過桌角。世界模型要做的事，是讓 AI 有一個能在「物質、物理、實體互動」上推理的內在表徵。

這個論點對 AI 安全討論也有意義。目前對 AI 風險的討論集中在資訊面：模型生成有害知識、模型被人誤用、模型有偏見。世界模型一旦做出來，AI 從「會說」進入「會做」，從資訊風險進入物理風險。Swyx 在另一段訪談裡跟 Anthropic 的克里格（Mike Krieger）討論過 AI 安全，他關心的最大議題是生物安全（家裡能合成致命病毒的可能），克里格反駁說「真正大的問題是資安。當 Mythos 給 40 家企業一萬名員工使用，這個模型已經不是『私有』了」。兩位的角度互補，提醒我們安全討論不能只停在資訊層。

結尾：知道一切但什麼都沒體驗過，這就是下一個十年的命題

把這集三篇文章兜起來，看到的是一個清晰的思考者在公開做兩件事：把當下的市場結構講清楚（第一篇）、把自己對未來的賭注講清楚（第二篇）、把自己過去的判斷錯誤跟下一個 frontier 講清楚（這篇）。對讀者最有用的不是任何一個具體的 thesis，而是這個自我修正的姿態本身。AI 產業的速度太快，沒有人能預測超過十二個月，但有人可以練成「快速校正」的習慣。

Matt Damon 在《心靈捕手》裡的角色是個天才，知道一切但什麼都沒體驗過。Swyx 用這個比喻收尾這集 podcast，給的是一個比技術更深的提醒：目前我們所有的 LLM 都還停在那個天才的位置，能講清楚所有東西，但對「真實」沒有概念。這個落差不會被下一代模型自動補起來，要靠世界模型、靠記憶、靠跟物理世界的真實互動慢慢長出來。對臺灣的開發者跟讀者來說，這集最值得帶走的不是任何一個 thesis，而是這個落差本身。當你下次用 Claude 或 ChatGPT 寫東西時，記得它知道一切、但什麼都沒體驗過。把它當天才用沒有問題，但別把它當人。