Swyx 公開承認去年講錯:開源模型回升、Post-training 值得做,下一個 Frontier 是世界模型

Swyx 在 Latent Space 與 Unsupervised Learning 跨刀單集尾段做了一件這個圈子很少見的事:公開承認自己去年兩個判斷錯了。第一,他過去看衰開源模型,現在收回,Fireworks、Together 跑得飛快,前 20% 的 agent lab 越用越多開源模型。第二,他原本覺得 post-training 在三個月模型週期裡沒意義,現在改口,因為「你丟得掉權重,但丟不掉資料」。接著他展望下一個 frontier:dark factories 的第二級(零人類審查)、多輪 RL,最終落到記憶、個人化、世界模型。本系列共三篇,這是第三篇。

Swyx 公開承認去年講錯:開源模型回升、Post-training 值得做,下一個 Frontier 是世界模型

本文整理自《Latent Space》與《Unsupervised Learning》2026 年 4 月 23 日的跨刀單集《AIE Europe Debrief + Agent Labs Thesis》,主持人是 Redpoint 投資合夥人 Jacob Effron,受訪者是 Latent Space 主持人、AI Engineer 大會策展人、現任 Cognition 員工 Swyx(Shawn Wang)。本系列共三篇,這是第三篇談 Swyx 公開承認的兩個轉念、dark factories 的下一級,以及他認為真正重要的下一個 frontier;第一篇談 AI 寫程式戰爭的市場結構,第二篇談 Swyx 的 2026 大論:寫程式 Agent 破籠。

{{< youtube A_7WafI9bhE >}}

{{< spotify "episode/3KJuOAQa6S9hyaRnAoC2IH" >}}

{{< apple-podcast "tw/podcast/aie-europe-debrief-agent-labs-thesis-unsupervised-learning/id1674008350?i=1000763306891" >}}


「我去年講錯了」:Swyx 對自己過去判斷的公開回收

Jacob 在訪談接近尾段時拋了一個他每集都會問來賓的問題:「過去這一年,你改變心意最多的一件事是什麼?」這個問題對多數來賓只是儀式性的收尾,但 Swyx 把它接成兩個完整的論述。他先講了一個方法論,再講具體的兩件事。方法論這樣說:「當你發現自己錯過一次,就要回頭把所有相關的判斷都重新校準一次。錯一個地方,往往代表你身上有一整套相關的偏見。」

這是 Swyx 的學習率調整原則。他用機器學習裡的學習率(learning rate)做類比,當你一次梯度更新後發現自己飄到錯誤方向,要把學習率拉高一點重新探索。對人類觀察者來說,這意味著錯一次之後不要只修正當下那個錯誤,要把跟這個錯誤共享同一套世界觀的其他判斷也重新審視。Swyx 自己這集承認的兩個轉念,剛好就是用這個原則找出來的兩個方向:開源模型,與 post-training。

這個自我修正的姿態在 AI 評論圈不太常見。多數有名的 AI 觀察者錯了之後會悄悄改口,或是用「我說過這個但沒人聽進去」的方式重寫歷史。Swyx 這段在公開節目上把自己的錯講清楚,是因為他做 podcast 跟做大會的角色都需要可信度,而可信度來自願意把自己錯的部分攤開。對寫東西、做評論的人來說,這個示範值得收進工具箱裡。

轉念 #1:開源模型回升,Fireworks 與 Together 跑很快

Swyx 去年對開源模型相對悲觀。當時他剛訪問完 Brain Trust 的 Ankur Goyal,Ankur 引述自家平台的數據說開源模型只有 5% 市場份額,而且還在掉。Swyx 那時的判斷是:開源模型在「絕對能力」上跟頂尖閉源模型差距越拉越大,市場份額萎縮是合理的演化結果。一年過去,他承認這個判斷錯了,現在的數字是往上的,不是往下的。

要理解為什麼他改口,要先理解他現在怎麼看「市場份額」這個問題。Swyx 的新方法論是不要看平均,要看分位數:把整個 AI 產業切成「頂部 20%」與「中段 80%」,這兩個族群的行為差異大到不應該放在同一個指標裡平均。中段 80% 的公司,多半就是把現成的閉源 API 串一串、做個 GPT wrapper,他們的開源模型使用率確實在下降。但頂部 20% 的 agent lab、嚴肅在訓練自家模型的公司,他們的開源模型使用率明顯上升。「我只在乎頂部 20%,因為他們是先行者,他們今天的選擇是中段 80% 一年後的選擇。」

具體訊號是 Fireworks AI 跟 Together AI 兩家開源推論服務商過去一年的成長曲線。兩家公司的營收 Swyx 沒給數字(他不在這兩家上班,沒有第一手資料),但他從業界觀察的結論是「兩家都跑得飛快」。連帶讓「fine-tuning-as-a-service」這個過去一年被宣告死掉的市場活回來:當開源模型的能力夠用、企業願意在開源模型上做客製化微調,這個服務模式就有空間。Swyx 自己過去也說過 fine-tuning-as-a-service 沒搞頭,這次他連這個附帶判斷一起收回。

這個轉念對臺灣有兩層意義。第一層,本地的 AI 服務商如果押在「閉源 API 之上做包裝」這個方向,要重新評估自己有沒有掉進中段 80% 的陷阱。第二層,臺灣自己長出開源模型生態的可能性比一年前看起來大:如果 Fireworks、Together 能在不訓練模型只做推論服務的位置上跑成大公司,這個位置在亞洲也應該有玩家能切。資料中心、推論晶片、推論服務,是一條臺灣硬體優勢可以延伸的鏈條。

轉念 #2:Post-training 值得做,「丟得掉權重,丟不掉資料」

第二個轉念跟 post-training(後訓練,包含 RLHF、SFT、DPO、GRPO 這些把預訓練好的模型再「調」一次的方法)有關。Swyx 過去一年的判斷是這樣:模型迭代週期是三個月,你今天花力氣 post-train 一個版本,三個月後新模型出來把你的 post-train 結果擦掉。所以 post-training 對成本跟延遲有意義,但對「品質提升」沒意義,因為你做的東西就是會被下一代模型免費吃進去。

Jacob 在訪談裡先講了一段有趣的觀察讓 Swyx 改口。Jacob 提到,一群應用層公司(Sierra、Legora、Bridge)已經接受「我們做的東西每三個月會丟掉重做」這個現實,他們的工作就是站在當下模型能做到的邊緣寫程式,模型進步了就把過時的部分扔掉。如果應用層公司接受了這個三個月汰舊的節奏,那 post-training 為什麼不能用同樣的邏輯看?只要這三個月內,post-training 是你能為客戶做的「最有價值的事」,它就值得做。

Swyx 在 Jacob 這段補刀後立刻接住,丟出這集最關鍵的一句金句:「你丟得掉權重,但丟不掉資料。」Post-training 的真正資產不是模型本身,是你為了 post-training 收集、整理、標記、驗證的資料。模型三個月後扔掉,重新用同一份資料 post-train 新模型,你的結果會比沒做過這件事的人好。這句話完整改寫了 post-training 的成本效益分析:你不是在投資一個會折舊的資產,你是在投資一個會延續到下一代模型的資料庫。

附帶的訊號是 Swyx 提到的兩個關鍵詞:long trajectory(長軌跡)跟 synthetic rubrics(合成評分標準)。他特別點名一篇叫 Dr. GRPO 的研究,作為 RL 方法論大幅進化的代表。過去一年的 RL 多半是淺層 SFT 跟單輪 RL,現在這一波在做的是「幾百輪」的多步 RL,把複雜的領域邏輯一輪一輪餵進去。這個方向讓 Swyx 認為,post-training 不只值得做,而且接下來會打開一個全新的「完全領域客製」空間:你可以把任何特定領域的知識用這套方法包進模型權重裡,不再依賴 prompt engineering 跟 RAG。

Dark Factories 第二級:零人類審查的「非公開」前沿

Swyx 在轉念之後接著講一個還沒被廣泛討論、但他認為是寫程式 Agent 下一個重大躍升的概念:dark factories(暗工廠)。這個詞 Simon Willison 在 5 月初的 Lenny's Podcast 上講過,AINEXT 已經寫過 Simon 視角的版本。Swyx 的版本不太一樣,他從寫程式心理症候群(AI coding psychosis)的進階分級切入。

第一級是「零人類寫的程式碼」。這個情境 Swyx 五個月前在 Cognition 內部第一次遇到的時候還覺得不可思議,現在已經是合理常態。整個產品團隊的程式碼,幾乎全部由代理人寫,工程師退到 review、test、deploy 的位置。第二級才是真正的下一個前沿:「零人類審查」。意思是代理人寫完程式碼,沒有任何人類看一眼,就直接 commit、build、deploy。Swyx 說這個情境聽起來「跟五個月前『零人類寫程式碼』一樣瘋狂,但只有 OpenAI 在認真探索」。

要讓零人類審查可行,整個軟體開發生命週期(SDLC)要被翻過來。傳統的安全網是 code review,把可能的錯誤在合進主分支前攔下。當這個關卡被拿掉,必須有等量的安全機制接住:更密的單元測試、自動驗證、模糊測試、形式化驗證。Swyx 的判斷是這些事情本來就該做,只是過去靠 code review 的安全感讓大家拖著不做。AI 代理人寫程式碼的速度逼著大家把這些「應該做但沒做」的工程習慣補起來。

「Quantity helps you get to quality.」這是 Swyx 給 dark factories 的金句。多數工程師對「量大」直覺反應是「品質會掉」,但他認為反過來:當你被迫應付十倍量的程式碼產出,你會被逼著建立十倍精細的驗證機制,最後得到的整體品質反而更高。這個論點對臺灣的工程主管特別重要:當你看到下面工程師被代理人帶著跑、產出量暴增的時候,不要本能地踩剎車,要做的是補上那些對應的驗證基礎建設。

下一個 Frontier #1:記憶與個人化才是真正的瓶頸

談完已經發生的轉變,Jacob 問 Swyx「你接下來會盯什麼方向」。Swyx 給了兩個答案,第一個是記憶與個人化。他先用一個讓人意外的數字說明問題:上下文長度(context length)是 LLM 的所有面向裡,擴展速度最慢的一個。從 4K 走到 1M token 用了大約三年,Gemini 的 1M context 已經提供兩年了,「幾乎沒人在用」。

Swyx 對這個數字的解讀很犀利。表面上看上下文長度是個容量問題,加倍就好。實際上是個產品問題,使用者不知道怎麼把那麼長的上下文有效塞進去,模型對長上下文的注意力分配也不均勻。長上下文不會自動變成「記憶」,因為記憶要的是長期、跨對話、可挑選性檢索的能力,而長上下文只是把更多東西塞進當下的這次推論。「記憶會是接下來最大的一個限制條件,不是運算、不是模型大小。」

這個判斷對產品端有具體推論。第一,誰先把記憶系統做對,誰就拿到下一個 Resend 等級的 LLM 推薦紅利。上一篇講的「擠進 Claude 推薦清單」這個遊戲,會被個人化記憶系統徹底改寫。第二,目前的 AEO(AI Engine Optimization)打法依賴的是頻率,誰被提到次數多誰排前面;當記憶系統成熟,推薦邏輯會變成「這個使用者過去用過什麼、喜歡什麼」,這個邏輯下品牌的權力會大幅下滑,使用者的個人偏好會壓過品牌行銷。

值得一提的是,Swyx 在訪談裡承認這個方向他也沒答案,「我們在記憶這件事上感覺已經卡住了」。產業裡所有大實驗室都在做,但沒有一個人能說清楚下一個突破口在哪。OpenAI、Anthropic、Google 都有 memory beta 功能,但都還停在「使用者主動記下來、使用者主動回顧」的層級,沒有真正的長期、自適應、跨任務記憶。對研究者來說這是一個值得壓年的方向,對應用層創業者來說這是一個還沒有人占住的空位。

下一個 Frontier #2:世界模型不是機器人,是真正的智慧

Swyx 點的第二個 frontier 是世界模型(world models),他連著 Fei-Fei Li 的論點一起講。李飛飛今年寫的那篇 spatial intelligence 論文是 Swyx 心目中的年度必讀,他在 Latent Space 上做了一系列討論,從李飛飛談到月之暗面(Moon Lake)、General Intuition 這些做世界模型的公司。

Swyx 對世界模型的論述有一個重要修正:不要把世界模型理解成「機器人或遊戲」。多數人聽到 world models,想到的是 3D 互動環境、機器人模擬、生成式遊戲場景。Swyx 說這些都是世界模型的應用,但不是世界模型的本質。「世界模型真正在做的事,是讓 AI 對物理跟物質有一個真正的概念。」這句話聽起來抽象,但他用《心靈捕手》(Good Will Hunting)裡 Matt Damon 跟 Robin Williams 那場戲當比喻,把這個概念落到非常具體。

那場戲裡,Matt Damon 演的天才一邊倒地引述書本知識,把心理諮商師 Robin Williams 完全壓制。Robin Williams 後來那段反擊大致是這樣:你讀過所有的書、知道所有的歷史,但你沒有真的去過西斯廷教堂、沒有真的拿著愛人的手、沒有真的失去過誰。Swyx 對這場戲的解讀是:「今天的 LLM 就是 Matt Damon 那個角色,知道一切(從書本上),但什麼都沒體驗過。」世界模型要解的,是把「體驗」這個 LLM 沒有的維度加進來。AI 知道桌子是什麼,但它沒有真的撞到過桌角。世界模型要做的事,是讓 AI 有一個能在「物質、物理、實體互動」上推理的內在表徵。

這個論點對 AI 安全討論也有意義。目前對 AI 風險的討論集中在資訊面:模型生成有害知識、模型被人誤用、模型有偏見。世界模型一旦做出來,AI 從「會說」進入「會做」,從資訊風險進入物理風險。Swyx 在另一段訪談裡跟 Anthropic 的克里格(Mike Krieger)討論過 AI 安全,他關心的最大議題是生物安全(家裡能合成致命病毒的可能),克里格反駁說「真正大的問題是資安。當 Mythos 給 40 家企業一萬名員工使用,這個模型已經不是『私有』了」。兩位的角度互補,提醒我們安全討論不能只停在資訊層。

結尾:知道一切但什麼都沒體驗過,這就是下一個十年的命題

把這集三篇文章兜起來,看到的是一個清晰的思考者在公開做兩件事:把當下的市場結構講清楚(第一篇)、把自己對未來的賭注講清楚(第二篇)、把自己過去的判斷錯誤跟下一個 frontier 講清楚(這篇)。對讀者最有用的不是任何一個具體的 thesis,而是這個自我修正的姿態本身。AI 產業的速度太快,沒有人能預測超過十二個月,但有人可以練成「快速校正」的習慣。

Matt Damon 在《心靈捕手》裡的角色是個天才,知道一切但什麼都沒體驗過。Swyx 用這個比喻收尾這集 podcast,給的是一個比技術更深的提醒:目前我們所有的 LLM 都還停在那個天才的位置,能講清楚所有東西,但對「真實」沒有概念。這個落差不會被下一代模型自動補起來,要靠世界模型、靠記憶、靠跟物理世界的真實互動慢慢長出來。對臺灣的開發者跟讀者來說,這集最值得帶走的不是任何一個 thesis,而是這個落差本身。當你下次用 Claude 或 ChatGPT 寫東西時,記得它知道一切、但什麼都沒體驗過。把它當天才用沒有問題,但別把它當人。