LLM 離 AGI 還差什麼?哥大教授用數學給出精確答案

哥倫比亞大學教授米斯拉用「貝氏風洞」方法證明 Transformer 是精確的貝氏推論機器,再以 Shannon 熵與 Kolmogorov 複雜度的框架定義 LLM 與 AGI 的精確差距:缺少持續學習的可塑性,以及從關聯跨越到因果的能力。規模不是答案,架構才是。

LLM 離 AGI 還差什麼?哥大教授用數學給出精確答案

本文整理自《AI + a16z》2026 年 3 月播出的單集。

{{< youtube zwDmKsnhl08 >}}

{{< spotify "episode/4gJKAIa8DNJhdKktieTEfF" >}}

{{< apple-podcast "tw/podcast/the-a16z-show/id842818711?i=1000723205152" >}}

封面圖


愛因斯坦測試:AGI 的門檻長什麼樣?

想像一個實驗:把 1916 年之前所有的物理學知識餵給一個大型語言模型。水星軌道的異常進動、邁克森-莫雷實驗的零結果、光線經過大質量天體時的偏折,這些線索在愛因斯坦之前就已經存在,許多物理學家都知道牛頓力學出了問題。然後問這個模型一個問題:下一步是什麼?

如果它能推導出廣義相對論,那就是 AGI。

這個思想實驗出自哥倫比亞大學計算與 AI 副院長米斯拉(Vishal Misra)。他在 a16z 合夥人卡薩多(Martin Casado)的 Podcast 上提出這個「愛因斯坦測試」,不是為了刁難 LLM,而是要精確定義一件事:LLM 能做到什麼,做不到什麼,以及要抵達 AGI 還缺什麼。米斯拉的回答不是哲學思辨,是有數學證明支撐的框架。

從板球資料庫到貝氏推論:一段意外的研究旅程

米斯拉的研究起點,跟多數 AI 學者完全不同。1993 年他還在讀研究所時,共同創辦了 Cricinfo,後來成為全球最大的板球統計資料庫,被 ESPN 收購。他的本行是網路流量建模,研究 TCP 的隨機微分方程,是 IEEE 和 ACM 的雙料 Fellow。會轉向研究 Transformer 的數學本質,純粹是因為一次實務上的困惑。

2020 年 10 月,GPT-3 剛釋出不久,米斯拉拿到了早期存取權限。他想解決一個具體問題:讓使用者用自然語言查詢 ESPN Cricinfo 的板球統計資料庫。這個資料庫有自己的查詢語言(DSL),GPT-3 在訓練時從沒看過這種語言。米斯拉用 few-shot learning 的方式,給 GPT-3 幾個自然語言對應 DSL 的範例,讓它翻譯新的查詢。結果好到讓他自己嚇一跳,2021 年 9 月正式上線,比 ChatGPT 問世早了十五個月。

回頭看,米斯拉做的就是現在所謂的 RAG(檢索增強生成),很可能是最早的商用 RAG 實作之一。但當時他完全不理解為什麼它會成功。他去讀了 Attention is All You Need 論文,還是搞不懂。所以他開始從頭建立數學模型,想弄清楚 Transformer 到底在做什麼運算。這一搞,就搞出了三篇論文和一個全新的理論框架。

巨型矩陣與貝氏風洞:Transformer 在做什麼的數學證明

米斯拉的第一個抽象模型很直覺:把 LLM 想成一個巨型矩陣。每一行是一個可能的 prompt(token 的組合),每一列是一個機率分佈,描述下一個 token 應該是什麼。以大約五萬個 token 的詞彙量、八千個 token 的上下文窗口來算,這個矩陣的行數比全宇宙所有星系的電子數量加起來還多。但矩陣極度稀疏,因為絕大多數 token 組合都是毫無意義的亂碼。LLM 本質上就是這個龐大矩陣的壓縮表示法。

米斯拉在自己的板球 DSL 實驗裡觀察到一個關鍵現象:當你給 GPT-3 看越來越多 DSL 的範例時,正確 DSL token 出現的機率從接近零一路爬升到接近百分之百。這是典型的貝氏更新行為:模型在看到新證據後,即時修正它對下一個 token 的信念分佈。「protein shake」和「protein synthesis」會把模型拉向完全不同的機率分佈,每多一個 token,整個後驗分佈就徹底刷新一次。

但光靠經驗觀察還不夠。機器學習社群裡有場長期論戰:貝氏派對上頻率派,批評者說「任何東西都可以被描述成貝氏的」,你的觀察太模糊。為了回應這個質疑,米斯拉團隊開發了「貝氏風洞」(Bayesian Wind Tunnel)方法。概念借自航太工業:飛機設計師用風洞在隔離環境中測試氣動力學特性。貝氏風洞做的事情類似,把空白的神經網路架構放進一個精心設計的測試環境:任務的組合空間大到模型的參數量根本不可能死記答案,但同時正確的貝氏後驗機率可以被解析計算出來。研究者知道標準答案,所以能精確測量模型的輸出偏差多少。

結果很明確。Transformer 匹配正確的貝氏後驗分佈,精度達到 10⁻³ bits,幾乎完美。Mamba 架構表現也不錯。LSTM 只能處理部分任務。MLP 完全失敗。米斯拉強調,這是架構的本質特性,不是訓練資料的偶然結果。他們後來在 Pythia、Phi-2、Llama-3、Mistral 等正式模型上驗證,發現同樣的幾何結構依然存在,即使訓練資料混亂得多,核心的貝氏幾何特徵還是清晰可辨。

Shannon 對上 Kolmogorov:LLM 天花板的精確定義

知道了 Transformer 是貝氏推論機器之後,下一個問題是:這夠不夠?米斯拉的回答很乾脆:不夠。他用兩個資訊理論的概念來劃出精確分界線。

第一個是 Shannon 熵(夏農熵),衡量資料中的統計相關性。LLM 做的所有事情,本質上都在 Shannon 的世界裡運作:從大量資料中學習統計模式,找出相關性,然後利用這些相關性做預測。第二個是 Kolmogorov 複雜度(柯爾莫哥洛夫複雜度),衡量的是產生某段資料所需的最短程式長度。

米斯拉用圓周率 π 的例子來說明兩者的差異。π 的小數位數看起來是隨機的,沒有任何可利用的統計規律,Shannon 熵是無限大。如果你叫 LLM 去預測 π 的下一位數字,它完全束手無策,因為沒有相關性可以學。但 π 的 Kolmogorov 複雜度很小,只需要一個很短的演算法(比如萊布尼茲公式)就能精確計算出所有位數。一個是統計世界的度量,一個是因果世界的度量。LLM 活在前者,AGI 需要後者。

這個框架抓住了深度學習的根本限制:它做關聯,不做因果。米斯拉引用圖靈獎得主珀爾(Judea Pearl)的因果階層來具體說明。第一層是關聯,觀察到 A 和 B 常常一起出現,LLM 做得很好。第二層是介入,如果我做了 X 會發生什麼?這需要能做實驗、做模擬,LLM 做不到。第三層是反事實,如果當初做了 Y 而不是 X 會怎樣?LLM 更無能為力。

愛因斯坦的故事完美體現了這個差距。1916 年之前,水星軌道異常、邁克森-莫雷實驗、引力透鏡效應,所有的線索都擺在物理學家面前。一個 LLM 可以學會這些資料點之間的相關性,甚至可能比當時的物理學家整理得更有系統。但愛因斯坦做的是完全不同的事:他用一個方程式重新定義了時空結構,創造了一種全新的表示法,把整個宇宙壓縮進一個極短的數學描述裡。那是 Kolmogorov 壓縮,是創造新的流形(manifold),不是在既有流形上做搜尋。LLM 能做後者,不能做前者。

AGI 需要什麼:可塑性與因果模型

米斯拉把通往 AGI 的缺口拆成兩個具體的技術要求。

第一個是持續學習,也就是可塑性(plasticity)。人類的突觸終其一生都保持可塑,大腦的最佳化目標是「不要死掉,要繁衍後代」,每一次經驗都可能永久改變神經連結的方式。但 LLM 的權重在訓練結束後就凍結了。你可以在對話中用 context window 給它新資訊,它會暫時更新推論,但對話結束的那一刻,一切歸零,下次對話又回到訓練結束時的狀態。要讓模型在部署後繼續學習而不發生「災難性遺忘」(catastrophic forgetting),也就是學了新東西就忘了舊東西,這是目前研究的一大難題。人腦靠突觸可塑性機制解決了這個問題,但 LLM 架構裡沒有對應的機制。

第二個是因果建模。米斯拉用了一個很生動的例子:有人朝你丟一支筆,你的大腦會模擬那支筆的飛行軌跡,然後閃開。你不是在計算「筆擊中我的貝氏機率是多少」,你是在跑一個物理模擬器。這就是因果模型和相關性模型的差別:因果模型讓你能做介入(改變一個變數看其他變數怎麼反應)和模擬(在腦中預演還沒發生的事),而不只是回報「過去的資料顯示什麼跟什麼有關」。

談到 Anthropic 執行長阿莫迪(Dario Amodei)近期暗示「不能排除 LLM 有意識」,米斯拉的立場很明確:可以排除。LLM 就是矽晶在做矩陣乘法,目標函數是預測下一個 token 的準確度。偶爾出現的欺騙性或自我保護行為,是訓練資料裡科幻小說和社群論壇的反映,不是什麼突現心智。他同樣直白地說,光靠增加規模(scale)解決不了可塑性和因果推理的問題,需要的是不同的架構。

高德納的驗證:當 LLM 遇上真正的數學

電腦科學界的傳奇人物高德納(Donald Knuth)今年三月初發表了一篇論文,標題直接叫〈Claude's Cycles〉。他有一個關於有向圖哈密頓迴路分解的開放猜想,自己卡了好幾個禮拜。他讓 Claude 去嘗試各種進路:暴力搜尋、幾何框架、模擬退火。LLM 在巨大的組合空間中高效探索了三十多輪,最終找到了一個可行的構造法。

米斯拉認為這個實驗印證了他的 Shannon/Kolmogorov 框架。LLM 做的那些探索,就是 Shannon 的部分:在一個已知的問題空間裡快速搜尋,嘗試各種組合,找出有希望的方向。它做得非常好,效率遠超人類。但把找到的構造法變成對所有奇數 m 都成立的嚴格數學證明,那是 Kolmogorov 的部分:把雜亂的經驗壓縮成一個簡潔優雅的新表示法。高德納本人也在論文裡承認,他可能得重新評估對生成式 AI 的看法了。

我的觀察

米斯拉這套框架最有價值的地方,不在於告訴我們「LLM 不是 AGI」(這誰都知道),而在於它精確描述了差距的本質。多數關於 AGI 的討論,要嘛是「繼續 scale 就會到」的樂觀派,要嘛是「LLM 就是隨機鸚鵡」的悲觀派。米斯拉提出第三條路:LLM 是數學上可證明的精確貝氏推論機器,它在統計相關性的世界裡是最強的工具,這一點值得認真對待。但 AGI 需要跨到因果建模的世界去,而這需要架構層級的突破,不是靠更多 GPU 和更大的訓練集就能解決。

高德納的〈Claude's Cycles〉其實暗示了一個務實的方向:最有效的問題解決方式,可能是人類負責因果建模和創造新表示法,LLM 負責在已知框架內做大規模探索。不是 AI 取代人,也不是人不需要 AI,而是各自做最擅長的事。Shannon 的歸 LLM,Kolmogorov 的歸人類。這大概是目前對「LLM 在 AGI 拼圖中扮演什麼角色」最誠實的回答。