AI 讀過所有書,卻沒摸過一張桌子

swyx 以《心靈捕手》比喻當代 LLM 的根本困境:知道一切卻未曾經歷。本文探討世界模型與空間智慧為何是下一個前線、開源模型如何在頂級開發者間逆勢崛起、Agent Lab 的模型訓練策略,以及為什麼記憶才是 AI 的真正瓶頸。

AI 讀過所有書,卻沒摸過一張桌子

本文整理自《Latent Space》與《Unsupervised Learning》2026 年 4 月播出的跨界對談。

{{< youtube A_7WafI9bhE >}}



《心靈捕手》裡的 AI 困境

電影《心靈捕手》(Good Will Hunting)裡有一場經典對話。天才年輕人什麼都知道,因為他讀過所有的書。但心理治療師對他說:你從來沒有真正經歷過任何事。

Latent Space Podcast 主持人暨 AI Engineer 共同創辦人 swyx(Shawn Wang)在與 Redpoint Ventures 投資人 Jacob Effron 的對談中,用了這個比喻來描述當代大型語言模型的根本困境。LLM 讀過人類文明裡幾乎所有的文字紀錄,但它不知道一張桌子摸起來是什麼感覺,不知道把杯子推到桌緣會發生什麼事,不知道物理世界的運作方式。它的「知識」全部來自文字,而文字終究只是現實的一種極度壓縮的表徵。

swyx 認為這不只是哲學上的有趣觀察,而是 AI 產業接下來必須正面面對的技術瓶頸。如果模型永遠只能從文字中學習,它的理解能力就有一個天花板。而我們可能已經快要碰到了。

世界模型:李飛飛的問題陳述

那該怎麼辦?swyx 指向了史丹佛大學教授李飛飛(Fei-Fei Li)的研究方向:空間智慧(spatial intelligence)。

李飛飛的核心論述是,目前的 AI 缺少一種對物理世界的根本性理解。它不懂空間、不懂物質、不懂因果。你可以問 ChatGPT「如果我把一顆球放在碗上面,然後把碗翻過來,球在哪裡?」它可能答得對,但它並不是真的「理解」球的位置,只是在統計上猜測了最可能的答案。

swyx 在 Latent Space 上做過一系列關於世界模型的報導,涵蓋李飛飛、Moon Lake 以及 General Intuition 等團隊的研究。他坦承目前多數世界模型的展示看起來離商業應用很遠:多半是 3D 靜態場景讓你走進去逛一下,然後你會想「這很酷,但跟我的 B2B SaaS 有什麼關係?」

但他認為這種反應錯失了重點。世界模型的目標不是做更好的遊戲引擎或機器人控制器,而是讓 AI 獲得一種更深層的智慧形式,一種超越 next-token prediction 的理解能力。目前業界把世界模型和機器人、遊戲綁在一起看,是因為那些是最容易展示的應用場景。真正的潛力在於:一旦模型具備了對物理世界的基本直覺,它在所有任務上的表現都會不同。

swyx 直言,李飛飛可能還沒有完整的解決方案,但她提出了正確的問題。在 AI 研究中,提出正確的問題往往比找到答案更困難。而產業的其他人正在用各自的方式嘗試回答這個問題。

開源模型的逆襲

在這場對談中,swyx 也坦承自己修正了一個過去的看法。

去年他和 Brain Trust 的 Ankur Goyal 錄 podcast 時,Goyal 引用數據說開源模型的市佔率只有 5%,而且還在下降。swyx 當時傾向認同這個觀察。但他現在認為趨勢反轉了。

關鍵是你不能只看平均值。如果你看的是整個市場的中位數使用行為,開源模型確實還是少數派。但真正的變化發生在金字塔頂端的 20%,也就是那些最先進的 agent lab 和頂級開發團隊。這群人正在大量轉向開源模型。為什麼?因為當 AI 工作負載從「探索能用什麼」轉變為「大規模穩定運行」,成本和速度就變成了關鍵。Fireworks 和 Together 這兩家推論平台的業績正在快速成長。fine-tuning as a service 曾經被認為不是一門好生意,現在正在成為可行的商業模式。

在 Open Router 的統計數據中,即使是在自由市場條件下,使用者確實會選擇開源模型,而且選擇的比例正在上升。雖然部分原因是價格補貼,但趨勢本身是真實的。能力差距是否正在縮小?swyx 坦言很難從公開基準測試判斷,因為造假太容易了。但從實際使用行為來看,開源不再是次等選擇。top 20% 的開發者和 bottom 80% 的行為模式已經截然不同,而前者正在定義市場的走向。

Agent Lab Playbook:先借用,再蒸餾

swyx 也描述了他所謂的「Agent Lab Playbook」,一套多數 AI 新創應該遵循的模型策略。

第一階段是借用。你先用 OpenAI、Anthropic 或 Google 的頂級模型來建立產品,獲得使用者,累積高品質的領域資料。在這個階段,模型選擇不那麼重要,重要的是你對使用者問題的理解和產品的完成度。

第二階段是蒸餾。當工作負載夠大、資料品質夠高,你就開始訓練自己的模型,把大型通用模型的能力蒸餾到一個更小、更快、更便宜的領域專用版本。Cursor 和 Cognition 都在走這條路。swyx 稱之為「bitter lesson 的反轉」:先靠通用模型起步,再用領域資料把它磨成特定用途的引擎。好處不只是成本,你還獲得了品牌優勢(可以用自己的名字發布模型和研究報告),以及對延遲的完全控制。

Effron 過去對這種做法有所保留,因為每隔三到六個月大型 lab 就會推出更好的通用模型,你的領域模型可能需要重新訓練。但他現在改變了看法。即使模型本身會被淘汰,累積的原始資料不會。你只是用最新的基底模型重跑一次蒸餾流程,資料資產依然在手上。

另一個加速這個策略的因素是替代硬體的興起。Cerebras 和 Thales 等非 NVIDIA 晶片的推論速度已經達到每秒數千個 token,相較傳統不到一百的水準是一個數量級的跳躍。swyx 過去對替代硬體持懷疑態度,覺得從每秒 100 提升到 200 也不過 2 倍。但他現在認為每一次 10 倍的速度提升都會解鎖全新的使用模式,就像行動網路從 3G 到 4G 催生了影音串流一樣。Cognition 已經在用 Cerebras,OpenAI 也是。這是一個多年期的投資主題,不該被輕忽。

記憶才是真正的瓶頸

討論完世界模型和開源之後,swyx 把話題拉回了一個他認為被嚴重低估的問題:記憶。

他指出 context length 是 LLM 裡擴展最慢的維度。我們花了大約三年時間,從 4,000 個 token 的上下文窗口成長到 100 萬。Google 的 Gemini 已經有百萬 token 上下文長度兩年了,但幾乎沒有人真正在使用。問題不在於塞不塞得進去,而在於模型能不能有效利用那些上下文。

swyx 認為記憶和個人化才是真正限制 AI 智慧水準的因素。模型現在能做的事情已經很多,但它不認識你。它不記得你上週問了什麼、你偏好什麼風格、你的專案架構長什麼樣子。每次對話都是從零開始。這讓 AI 停留在一個「很聰明的陌生人」的狀態,而不是「了解你的夥伴」。

在他看來,誰先解決記憶和個人化,誰就能定義下一代的 AI 使用者體驗。目前的 AEO(Agent Experience Optimization)之所以重要,是因為記憶系統還不成熟,模型只能靠訓練資料中的頻率來推薦產品。一旦記憶和個人化成熟了,推薦邏輯會完全不同:你過去用什麼、什麼體驗好,會比「哪個品牌在網路上被提到最多次」更重要。

我的觀察

swyx 的《心靈捕手》比喻,是我聽過對 LLM 局限性最精準的類比。

我們每天都在用這些模型,很容易忘記它們的「理解」本質上只是文字統計的結果。它們可以寫出精確的物理學解釋,但從未感受過重力。可以描述食物的味道,但沒有味覺。這不是靠更多資料或更大模型就能解決的問題,而是需要根本不同的方法論。李飛飛的空間智慧研究指向了這個方向,但離可商業化的突破還有距離。這是一個值得長期關注、但短期不會有答案的命題。

如果要從這場對談中挑出一個最值得關注的訊號,我會選「記憶」。因為記憶不只影響個人使用體驗,它可能重新定義整個 AI 產品的競爭格局。當模型終於能記住你、理解你的偏好、累積你的脈絡,所有目前基於「頻率」和「知名度」的推薦邏輯都會失效。那將是一場真正的洗牌。對於正在做 AI 產品的團隊來說,現在開始思考記憶架構,可能比追逐最新模型更有長期價值。