AI 技術前沿

LLM 離 AGI 還差什麼？哥大教授用數學給出精確答案

哥倫比亞大學教授米斯拉用「貝氏風洞」方法證明 Transformer 是精確的貝氏推論機器，再以 Shannon 熵與 Kolmogorov 複雜度的框架定義 LLM 與 AGI 的精確差距：缺少持續學習的可塑性，以及從關聯跨越到因果的能力。規模不是答案，架構才是。

2026 年 3 月 31 日 · 來源： AI + a16z

本文整理自《AI + a16z》2026 年 3 月播出的單集。

{{< apple-podcast "tw/podcast/the-a16z-show/id842818711?i=1000723205152" >}}

封面圖

愛因斯坦測試：AGI 的門檻長什麼樣？

想像一個實驗：把 1916 年之前所有的物理學知識餵給一個大型語言模型。水星軌道的異常進動、邁克森-莫雷實驗的零結果、光線經過大質量天體時的偏折，這些線索在愛因斯坦之前就已經存在，許多物理學家都知道牛頓力學出了問題。然後問這個模型一個問題：下一步是什麼？

如果它能推導出廣義相對論，那就是 AGI。

這個思想實驗出自哥倫比亞大學計算與 AI 副院長米斯拉（Vishal Misra）。他在 a16z 合夥人卡薩多（Martin Casado）的 Podcast 上提出這個「愛因斯坦測試」，不是為了刁難 LLM，而是要精確定義一件事：LLM 能做到什麼，做不到什麼，以及要抵達 AGI 還缺什麼。米斯拉的回答不是哲學思辨，是有數學證明支撐的框架。

從板球資料庫到貝氏推論：一段意外的研究旅程

米斯拉的研究起點，跟多數 AI 學者完全不同。1993 年他還在讀研究所時，共同創辦了 Cricinfo，後來成為全球最大的板球統計資料庫，被 ESPN 收購。他的本行是網路流量建模，研究 TCP 的隨機微分方程，是 IEEE 和 ACM 的雙料 Fellow。會轉向研究 Transformer 的數學本質，純粹是因為一次實務上的困惑。

2020 年 10 月，GPT-3 剛釋出不久，米斯拉拿到了早期存取權限。他想解決一個具體問題：讓使用者用自然語言查詢 ESPN Cricinfo 的板球統計資料庫。這個資料庫有自己的查詢語言（DSL），GPT-3 在訓練時從沒看過這種語言。米斯拉用 few-shot learning 的方式，給 GPT-3 幾個自然語言對應 DSL 的範例，讓它翻譯新的查詢。結果好到讓他自己嚇一跳，2021 年 9 月正式上線，比 ChatGPT 問世早了十五個月。

回頭看，米斯拉做的就是現在所謂的 RAG（檢索增強生成），很可能是最早的商用 RAG 實作之一。但當時他完全不理解為什麼它會成功。他去讀了 Attention is All You Need 論文，還是搞不懂。所以他開始從頭建立數學模型，想弄清楚 Transformer 到底在做什麼運算。這一搞，就搞出了三篇論文和一個全新的理論框架。

巨型矩陣與貝氏風洞：Transformer 在做什麼的數學證明

米斯拉的第一個抽象模型很直覺：把 LLM 想成一個巨型矩陣。每一行是一個可能的 prompt（token 的組合），每一列是一個機率分佈，描述下一個 token 應該是什麼。以大約五萬個 token 的詞彙量、八千個 token 的上下文窗口來算，這個矩陣的行數比全宇宙所有星系的電子數量加起來還多。但矩陣極度稀疏，因為絕大多數 token 組合都是毫無意義的亂碼。LLM 本質上就是這個龐大矩陣的壓縮表示法。

米斯拉在自己的板球 DSL 實驗裡觀察到一個關鍵現象：當你給 GPT-3 看越來越多 DSL 的範例時，正確 DSL token 出現的機率從接近零一路爬升到接近百分之百。這是典型的貝氏更新行為：模型在看到新證據後，即時修正它對下一個 token 的信念分佈。「protein shake」和「protein synthesis」會把模型拉向完全不同的機率分佈，每多一個 token，整個後驗分佈就徹底刷新一次。

但光靠經驗觀察還不夠。機器學習社群裡有場長期論戰：貝氏派對上頻率派，批評者說「任何東西都可以被描述成貝氏的」，你的觀察太模糊。為了回應這個質疑，米斯拉團隊開發了「貝氏風洞」（Bayesian Wind Tunnel）方法。概念借自航太工業：飛機設計師用風洞在隔離環境中測試氣動力學特性。貝氏風洞做的事情類似，把空白的神經網路架構放進一個精心設計的測試環境：任務的組合空間大到模型的參數量根本不可能死記答案，但同時正確的貝氏後驗機率可以被解析計算出來。研究者知道標準答案，所以能精確測量模型的輸出偏差多少。

結果很明確。Transformer 匹配正確的貝氏後驗分佈，精度達到 10⁻³ bits，幾乎完美。Mamba 架構表現也不錯。LSTM 只能處理部分任務。MLP 完全失敗。米斯拉強調，這是架構的本質特性，不是訓練資料的偶然結果。他們後來在 Pythia、Phi-2、Llama-3、Mistral 等正式模型上驗證，發現同樣的幾何結構依然存在，即使訓練資料混亂得多，核心的貝氏幾何特徵還是清晰可辨。

Shannon 對上 Kolmogorov：LLM 天花板的精確定義

知道了 Transformer 是貝氏推論機器之後，下一個問題是：這夠不夠？米斯拉的回答很乾脆：不夠。他用兩個資訊理論的概念來劃出精確分界線。

第一個是 Shannon 熵（夏農熵），衡量資料中的統計相關性。LLM 做的所有事情，本質上都在 Shannon 的世界裡運作：從大量資料中學習統計模式，找出相關性，然後利用這些相關性做預測。第二個是 Kolmogorov 複雜度（柯爾莫哥洛夫複雜度），衡量的是產生某段資料所需的最短程式長度。

米斯拉用圓周率 π 的例子來說明兩者的差異。π 的小數位數看起來是隨機的，沒有任何可利用的統計規律，Shannon 熵是無限大。如果你叫 LLM 去預測 π 的下一位數字，它完全束手無策，因為沒有相關性可以學。但 π 的 Kolmogorov 複雜度很小，只需要一個很短的演算法（比如萊布尼茲公式）就能精確計算出所有位數。一個是統計世界的度量，一個是因果世界的度量。LLM 活在前者，AGI 需要後者。

這個框架抓住了深度學習的根本限制：它做關聯，不做因果。米斯拉引用圖靈獎得主珀爾（Judea Pearl）的因果階層來具體說明。第一層是關聯，觀察到 A 和 B 常常一起出現，LLM 做得很好。第二層是介入，如果我做了 X 會發生什麼？這需要能做實驗、做模擬，LLM 做不到。第三層是反事實，如果當初做了 Y 而不是 X 會怎樣？LLM 更無能為力。

愛因斯坦的故事完美體現了這個差距。1916 年之前，水星軌道異常、邁克森-莫雷實驗、引力透鏡效應，所有的線索都擺在物理學家面前。一個 LLM 可以學會這些資料點之間的相關性，甚至可能比當時的物理學家整理得更有系統。但愛因斯坦做的是完全不同的事：他用一個方程式重新定義了時空結構，創造了一種全新的表示法，把整個宇宙壓縮進一個極短的數學描述裡。那是 Kolmogorov 壓縮，是創造新的流形（manifold），不是在既有流形上做搜尋。LLM 能做後者，不能做前者。

AGI 需要什麼：可塑性與因果模型

米斯拉把通往 AGI 的缺口拆成兩個具體的技術要求。

第一個是持續學習，也就是可塑性（plasticity）。人類的突觸終其一生都保持可塑，大腦的最佳化目標是「不要死掉，要繁衍後代」，每一次經驗都可能永久改變神經連結的方式。但 LLM 的權重在訓練結束後就凍結了。你可以在對話中用 context window 給它新資訊，它會暫時更新推論，但對話結束的那一刻，一切歸零，下次對話又回到訓練結束時的狀態。要讓模型在部署後繼續學習而不發生「災難性遺忘」（catastrophic forgetting），也就是學了新東西就忘了舊東西，這是目前研究的一大難題。人腦靠突觸可塑性機制解決了這個問題，但 LLM 架構裡沒有對應的機制。

第二個是因果建模。米斯拉用了一個很生動的例子：有人朝你丟一支筆，你的大腦會模擬那支筆的飛行軌跡，然後閃開。你不是在計算「筆擊中我的貝氏機率是多少」，你是在跑一個物理模擬器。這就是因果模型和相關性模型的差別：因果模型讓你能做介入（改變一個變數看其他變數怎麼反應）和模擬（在腦中預演還沒發生的事），而不只是回報「過去的資料顯示什麼跟什麼有關」。

談到 Anthropic 執行長阿莫迪（Dario Amodei）近期暗示「不能排除 LLM 有意識」，米斯拉的立場很明確：可以排除。LLM 就是矽晶在做矩陣乘法，目標函數是預測下一個 token 的準確度。偶爾出現的欺騙性或自我保護行為，是訓練資料裡科幻小說和社群論壇的反映，不是什麼突現心智。他同樣直白地說，光靠增加規模（scale）解決不了可塑性和因果推理的問題，需要的是不同的架構。

高德納的驗證：當 LLM 遇上真正的數學

電腦科學界的傳奇人物高德納（Donald Knuth）今年三月初發表了一篇論文，標題直接叫〈Claude's Cycles〉。他有一個關於有向圖哈密頓迴路分解的開放猜想，自己卡了好幾個禮拜。他讓 Claude 去嘗試各種進路：暴力搜尋、幾何框架、模擬退火。LLM 在巨大的組合空間中高效探索了三十多輪，最終找到了一個可行的構造法。

米斯拉認為這個實驗印證了他的 Shannon/Kolmogorov 框架。LLM 做的那些探索，就是 Shannon 的部分：在一個已知的問題空間裡快速搜尋，嘗試各種組合，找出有希望的方向。它做得非常好，效率遠超人類。但把找到的構造法變成對所有奇數 m 都成立的嚴格數學證明，那是 Kolmogorov 的部分：把雜亂的經驗壓縮成一個簡潔優雅的新表示法。高德納本人也在論文裡承認，他可能得重新評估對生成式 AI 的看法了。

我的觀察

米斯拉這套框架最有價值的地方，不在於告訴我們「LLM 不是 AGI」（這誰都知道），而在於它精確描述了差距的本質。多數關於 AGI 的討論，要嘛是「繼續 scale 就會到」的樂觀派，要嘛是「LLM 就是隨機鸚鵡」的悲觀派。米斯拉提出第三條路：LLM 是數學上可證明的精確貝氏推論機器，它在統計相關性的世界裡是最強的工具，這一點值得認真對待。但 AGI 需要跨到因果建模的世界去，而這需要架構層級的突破，不是靠更多 GPU 和更大的訓練集就能解決。

高德納的〈Claude's Cycles〉其實暗示了一個務實的方向：最有效的問題解決方式，可能是人類負責因果建模和創造新表示法，LLM 負責在已知框架內做大規模探索。不是 AI 取代人，也不是人不需要 AI，而是各自做最擅長的事。Shannon 的歸 LLM，Kolmogorov 的歸人類。這大概是目前對「LLM 在 AGI 拼圖中扮演什麼角色」最誠實的回答。