AI 技術前沿

AI 讀過所有書，卻沒摸過一張桌子

swyx 以《心靈捕手》比喻當代 LLM 的根本困境：知道一切卻未曾經歷。本文探討世界模型與空間智慧為何是下一個前線、開源模型如何在頂級開發者間逆勢崛起、Agent Lab 的模型訓練策略，以及為什麼記憶才是 AI 的真正瓶頸。

2026 年 5 月 30 日 · 來源： Latent Space × Unsupervised Learning

本文整理自《Latent Space》與《Unsupervised Learning》2026 年 4 月播出的跨界對談。

《心靈捕手》裡的 AI 困境

電影《心靈捕手》（Good Will Hunting）裡有一場經典對話。天才年輕人什麼都知道，因為他讀過所有的書。但心理治療師對他說：你從來沒有真正經歷過任何事。

Latent Space Podcast 主持人暨 AI Engineer 共同創辦人 swyx（Shawn Wang）在與 Redpoint Ventures 投資人 Jacob Effron 的對談中，用了這個比喻來描述當代大型語言模型的根本困境。LLM 讀過人類文明裡幾乎所有的文字紀錄，但它不知道一張桌子摸起來是什麼感覺，不知道把杯子推到桌緣會發生什麼事，不知道物理世界的運作方式。它的「知識」全部來自文字，而文字終究只是現實的一種極度壓縮的表徵。

swyx 認為這不只是哲學上的有趣觀察，而是 AI 產業接下來必須正面面對的技術瓶頸。如果模型永遠只能從文字中學習，它的理解能力就有一個天花板。而我們可能已經快要碰到了。

世界模型：李飛飛的問題陳述

那該怎麼辦？swyx 指向了史丹佛大學教授李飛飛（Fei-Fei Li）的研究方向：空間智慧（spatial intelligence）。

李飛飛的核心論述是，目前的 AI 缺少一種對物理世界的根本性理解。它不懂空間、不懂物質、不懂因果。你可以問 ChatGPT「如果我把一顆球放在碗上面，然後把碗翻過來，球在哪裡？」它可能答得對，但它並不是真的「理解」球的位置，只是在統計上猜測了最可能的答案。

swyx 在 Latent Space 上做過一系列關於世界模型的報導，涵蓋李飛飛、Moon Lake 以及 General Intuition 等團隊的研究。他坦承目前多數世界模型的展示看起來離商業應用很遠：多半是 3D 靜態場景讓你走進去逛一下，然後你會想「這很酷，但跟我的 B2B SaaS 有什麼關係？」

但他認為這種反應錯失了重點。世界模型的目標不是做更好的遊戲引擎或機器人控制器，而是讓 AI 獲得一種更深層的智慧形式，一種超越 next-token prediction 的理解能力。目前業界把世界模型和機器人、遊戲綁在一起看，是因為那些是最容易展示的應用場景。真正的潛力在於：一旦模型具備了對物理世界的基本直覺，它在所有任務上的表現都會不同。

swyx 直言，李飛飛可能還沒有完整的解決方案，但她提出了正確的問題。在 AI 研究中，提出正確的問題往往比找到答案更困難。而產業的其他人正在用各自的方式嘗試回答這個問題。

開源模型的逆襲

在這場對談中，swyx 也坦承自己修正了一個過去的看法。

去年他和 Brain Trust 的 Ankur Goyal 錄 podcast 時，Goyal 引用數據說開源模型的市佔率只有 5%，而且還在下降。swyx 當時傾向認同這個觀察。但他現在認為趨勢反轉了。

關鍵是你不能只看平均值。如果你看的是整個市場的中位數使用行為，開源模型確實還是少數派。但真正的變化發生在金字塔頂端的 20%，也就是那些最先進的 agent lab 和頂級開發團隊。這群人正在大量轉向開源模型。為什麼？因為當 AI 工作負載從「探索能用什麼」轉變為「大規模穩定運行」，成本和速度就變成了關鍵。Fireworks 和 Together 這兩家推論平台的業績正在快速成長。fine-tuning as a service 曾經被認為不是一門好生意，現在正在成為可行的商業模式。

在 Open Router 的統計數據中，即使是在自由市場條件下，使用者確實會選擇開源模型，而且選擇的比例正在上升。雖然部分原因是價格補貼，但趨勢本身是真實的。能力差距是否正在縮小？swyx 坦言很難從公開基準測試判斷，因為造假太容易了。但從實際使用行為來看，開源不再是次等選擇。top 20% 的開發者和 bottom 80% 的行為模式已經截然不同，而前者正在定義市場的走向。

Agent Lab Playbook：先借用，再蒸餾

swyx 也描述了他所謂的「Agent Lab Playbook」，一套多數 AI 新創應該遵循的模型策略。

第一階段是借用。你先用 OpenAI、Anthropic 或 Google 的頂級模型來建立產品，獲得使用者，累積高品質的領域資料。在這個階段，模型選擇不那麼重要，重要的是你對使用者問題的理解和產品的完成度。

第二階段是蒸餾。當工作負載夠大、資料品質夠高，你就開始訓練自己的模型，把大型通用模型的能力蒸餾到一個更小、更快、更便宜的領域專用版本。Cursor 和 Cognition 都在走這條路。swyx 稱之為「bitter lesson 的反轉」：先靠通用模型起步，再用領域資料把它磨成特定用途的引擎。好處不只是成本，你還獲得了品牌優勢（可以用自己的名字發布模型和研究報告），以及對延遲的完全控制。

Effron 過去對這種做法有所保留，因為每隔三到六個月大型 lab 就會推出更好的通用模型，你的領域模型可能需要重新訓練。但他現在改變了看法。即使模型本身會被淘汰，累積的原始資料不會。你只是用最新的基底模型重跑一次蒸餾流程，資料資產依然在手上。

另一個加速這個策略的因素是替代硬體的興起。Cerebras 和 Thales 等非 NVIDIA 晶片的推論速度已經達到每秒數千個 token，相較傳統不到一百的水準是一個數量級的跳躍。swyx 過去對替代硬體持懷疑態度，覺得從每秒 100 提升到 200 也不過 2 倍。但他現在認為每一次 10 倍的速度提升都會解鎖全新的使用模式，就像行動網路從 3G 到 4G 催生了影音串流一樣。Cognition 已經在用 Cerebras，OpenAI 也是。這是一個多年期的投資主題，不該被輕忽。

記憶才是真正的瓶頸

討論完世界模型和開源之後，swyx 把話題拉回了一個他認為被嚴重低估的問題：記憶。

他指出 context length 是 LLM 裡擴展最慢的維度。我們花了大約三年時間，從 4,000 個 token 的上下文窗口成長到 100 萬。Google 的 Gemini 已經有百萬 token 上下文長度兩年了，但幾乎沒有人真正在使用。問題不在於塞不塞得進去，而在於模型能不能有效利用那些上下文。

swyx 認為記憶和個人化才是真正限制 AI 智慧水準的因素。模型現在能做的事情已經很多，但它不認識你。它不記得你上週問了什麼、你偏好什麼風格、你的專案架構長什麼樣子。每次對話都是從零開始。這讓 AI 停留在一個「很聰明的陌生人」的狀態，而不是「了解你的夥伴」。

在他看來，誰先解決記憶和個人化，誰就能定義下一代的 AI 使用者體驗。目前的 AEO（Agent Experience Optimization）之所以重要，是因為記憶系統還不成熟，模型只能靠訓練資料中的頻率來推薦產品。一旦記憶和個人化成熟了，推薦邏輯會完全不同：你過去用什麼、什麼體驗好，會比「哪個品牌在網路上被提到最多次」更重要。

我的觀察

swyx 的《心靈捕手》比喻，是我聽過對 LLM 局限性最精準的類比。

我們每天都在用這些模型，很容易忘記它們的「理解」本質上只是文字統計的結果。它們可以寫出精確的物理學解釋，但從未感受過重力。可以描述食物的味道，但沒有味覺。這不是靠更多資料或更大模型就能解決的問題，而是需要根本不同的方法論。李飛飛的空間智慧研究指向了這個方向，但離可商業化的突破還有距離。這是一個值得長期關注、但短期不會有答案的命題。

如果要從這場對談中挑出一個最值得關注的訊號，我會選「記憶」。因為記憶不只影響個人使用體驗，它可能重新定義整個 AI 產品的競爭格局。當模型終於能記住你、理解你的偏好、累積你的脈絡，所有目前基於「頻率」和「知名度」的推薦邏輯都會失效。那將是一場真正的洗牌。對於正在做 AI 產品的團隊來說，現在開始思考記憶架構，可能比追逐最新模型更有長期價值。