AI 技術前沿

一百五十五頁的火花：GPT-4 發布八天後，微軟宣稱看見了 AGI

2023 年 3 月，GPT-4 發布僅八天後，微軟研究院 14 位研究員提交了一篇 155 頁的論文，宣稱在 GPT-4 身上觀察到了「通用人工智慧的早期火花」。他們不做標準測試，而是讓 GPT-4 用程式碼畫獨角獸、以莎士比亞風格寫數學證明、通過心理學的心智理論測試。這篇論文成為 2023 年最高引用的 AI 論文之一——也引爆了 AI 領域最激烈的一場辯論。

2023 年 3 月 21 日 · 來源： arXiv

本文為「AI 經典文獻回顧」系列第十八篇，介紹 Sébastien Bubeck 等 14 位微軟研究員於 2023 年 3 月發表的論文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》。這篇 155 頁的論文宣稱 GPT-4 展現了 AGI 的早期火花，同時也引發了 AI 學術界最激烈的路線之爭。上一篇見〈十六條原則：一篇論文如何用 AI 取代五萬個人類判斷〉；再上一篇見〈量變何時成為質變〉。

八天

2023 年 3 月是 AI 歷史上最混亂的月份。

十一月底，ChatGPT 發布，兩個月內突破一億用戶，成為人類史上成長最快的消費者應用。二月，微軟搶在 Google 之前推出整合了早期 GPT-4 的 Bing Chat。三月一日，OpenAI 開放 ChatGPT API。三月十四日，GPT-4 正式發布——同一天，Anthropic 推出了 Claude。三月二十一日，Google 匆忙上線 Bard。

整個科技產業正處於一種集體恍惚的狀態。每個人都在試用 ChatGPT，每間公司都在重寫 AI 策略，每個投資人都在尋找下一個「AI 原生」新創。但幾乎沒有人搞清楚這些大型語言模型到底在做什麼——它們是真的「理解」語言，還是只是在做非常高級的自動補全？

在這個混亂中，GPT-4 發布後的第八天——2023 年 3 月 22 日——微軟研究院的 14 位研究員在 arXiv 上放了一篇論文。

一百五十五頁。

標題是：《Sparks of Artificial General Intelligence: Early experiments with GPT-4》。

翻譯過來就是：通用人工智慧的火花。

一份不像論文的論文

這篇論文在幾乎所有方面都是異類。

首先是篇幅。正文九十五頁，加上附錄共一百五十五頁。在 AI 領域，一篇標準的頂會論文大約八到十頁。就算是綜述型的長文，也很少超過五十頁。一百五十五頁——這不是論文，這是一本書。

其次是方法論。傳統 AI 論文的套路是：提出模型→在 benchmark 上跑分→跟基線比較→宣稱 state-of-the-art。Bubeck 團隊完全不做這些。他們不跑 benchmark，不做量化評估，不跟其他模型比較。他們做的事情更接近質性研究：設計一個又一個跨領域的挑戰性任務，然後看 GPT-4 怎麼應對。

他們管這叫「質性評估」。批評者管這叫「軼事集」。

第三是他們對 AGI 的定義。這是整篇論文最基礎也最受爭議的選擇。他們沒有用 AI 領域常見的 AGI 定義（那些定義太多了，而且彼此矛盾），而是回到了 1994 年一份由心理學家琳達·葛特弗雷德森（Linda Gottfredson）主導、52 位研究者在《華爾街日報》上聯署的聲明——「Mainstream Science on Intelligence」。那份聲明把智慧定義為「一種非常通用的心智能力，包括推理、計劃、解決問題、抽象思考、理解複雜概念、快速學習以及從經驗中學習的能力」。

然後，他們沿著這個定義的每一個軸線——推理、創造力、編碼、數學、醫學、法律、心理學——逐一測試 GPT-4。

火花長什麼樣子

測試的結果，是這篇論文被瘋傳的原因。

最著名的是獨角獸實驗。研究者要求 GPT-4 用 TikZ（LaTeX 的繪圖語言）畫一隻獨角獸。GPT-4 生成了一段程式碼，跑出來真的是一隻看得出來是獨角獸的圖形。然後研究者做了一件更狠的事：他們大幅修改程式碼，故意把獨角獸的角刪掉，再把修改後的版本丟回給 GPT-4，問它「這隻獨角獸缺了什麼？請修復。」GPT-4 成功辨識出角被移除了，並修復了程式碼。

這件事之所以震撼，不是因為「AI 會畫畫」。而是因為 GPT-4 似乎同時「理解」了三件事：獨角獸長什麼樣子、TikZ 程式碼的語法結構、以及兩者之間的對應關係。它看著一堆程式碼，就能推斷出畫面中少了角——這需要某種形式的「視覺想像力」，即使這個模型在訓練時從未見過一張圖片。

類似的驚豔展示還有很多。他們讓 GPT-4 以莎士比亞的風格——每行押韻——寫出「質數有無限多個」的數學證明。他們讓它解 LeetCode 程式設計面試題，十分鐘內擊敗 93% 到 100% 的人類使用者。他們用心理學的 Sally-Anne 測試來檢驗它的心智理論——GPT-4 通過了。

但論文並不只是一連串「看 GPT-4 多厲害」的炫技。研究者花了大量篇幅討論 GPT-4 的局限性。第八節整整一章在分析模型的規劃能力為什麼不行——他們認為這是自回歸架構（一個 token 接一個 token 往前生成，不能回頭修改）的根本限制。模型會幻覺、會犯基本的算術錯誤、在長鏈推理中會失去一致性。論文結尾甚至直接說：要邁向更深層的 AGI，可能需要超越「預測下一個 token」的全新範式。

這是整篇論文最微妙的地方。它一方面宣稱看見了 AGI 的火花，另一方面又承認這些火花隨時可能熄滅。

誰寫了這份報告

十四位作者全部來自微軟研究院。

第一作者賽巴斯蒂安·布貝克（Sébastien Bubeck），1985 年生於法國，巴黎高等師範學院卡尚分校畢業，2010 年在里爾第一大學拿到博士學位，研究主題是多臂賭博機（multi-armed bandits）和統計學習理論。二十六歲就成為普林斯頓大學助理教授。2014 年加入微軟研究院，一路做到生成式 AI 研究副總裁。他的學術功底極其扎實——STOC 2023 最佳論文、NeurIPS 2018 和 2021 兩次最佳論文、COLT 2016 最佳論文。他寫的凸優化教科書《Convex Optimization: Algorithms and Complexity》是領域標準讀物。

第二個值得注意的作者是羅南·埃爾丹（Ronen Eldan），以色列數學家，Weizmann 科學研究所教授。他在 2023 年拿到了數學新視野突破獎（New Horizons Breakthrough Prize in Mathematics）——這是數學界最高級別的獎項之一。他是 Phi 系列小模型的核心推手，靈感來自一個出人意料的場景：每天晚上為女兒讀故事。他注意到幼兒能從極少量但高品質的故事中學到語言結構，由此提出了「Textbooks Are All You Need」方法論——後來成為 Phi-1 的基礎。

「Sparks」這個標題來自微軟首席科學官艾瑞克·乎維茲（Eric Horvitz）。他觀察了研究團隊的實驗後，將 GPT-4 在各個領域展現的意外能力形容為「明亮的小火花」。

但這裡有一個房間裡的大象：微軟在 2023 年初已經向 OpenAI 投資超過一百億美元，正把 GPT 模型整合到從 Bing 到 Office 365 的全線產品中。微軟研究員發表一篇論文，宣稱自己合作夥伴的模型是 AGI 的早期形式——這裡面的利益衝突，幾乎不需要點破。

Vice 雜誌的標題直接寫：「微軟現在宣稱 GPT-4 展現了通用智慧的火花。」

學術界炸了

論文發表兩天後，紐約大學名譽教授蓋瑞·馬庫斯（Gary Marcus）就在 Substack 上丟出了一篇長文，標題是一個問句：「The Sparks of AGI? Or the End of Science?」——AGI 的火花，還是科學的終結？

Marcus 的批評刀刀見骨。第一刀：方法論。一百五十五頁的質性案例研究，沒有對照組、沒有可重複性、沒有統計顯著性——這是「偽裝成科學的新聞稿」。第二刀：cherry-picking。有研究者嘗試複製論文中的示範，「五個提示中有四個無法複製」。第三刀：AGI 定義。按照論文選擇的 1994 年智慧定義，計算機甚至 Siri 是不是也能算「早期但不完整的 AGI」？第四刀：訓練資料污染。OpenAI 持續將使用者的互動納入訓練語料庫——這意味著模型可能只是在重複它見過的巧妙回答，而不是在「理解」。

華盛頓大學的艾蜜莉·乙紐兒（Emily Bender）——如果你讀過這個系列的第十二篇〈當鸚鵡學會說話〉，你對她不會陌生——從另一個角度開火。她在 Medium 上寫了一篇文章叫〈Resist the Urge to be Impressed〉（不要被表象迷惑）。她的核心論點跟兩年前一樣：大型語言模型是隨機鸚鵡，它們根據統計機率拼接訓練資料中見過的語言片段。GPT-4 畫得出獨角獸不代表它「理解」獨角獸——它只是見過夠多的 TikZ 程式碼和獨角獸的文字描述。

「隨機鸚鵡」vs「AGI 的火花」——兩年前和兩年後，這場辯論的基本格局沒有改變。

Meta 的首席 AI 科學家楊立昆（Yann LeCun）更直接。他反覆強調「自回歸 LLM 絕對不可能達到人類智慧」，甚至稱「通用智慧」這個概念本身就是「徹底的胡說八道」。他主張需要全新的架構——比如他提出的 JEPA（Joint Embedding Predictive Architecture）世界模型——才有可能接近真正的智慧。

最有力的實證反駁來自亞利桑那州立大學的蘇巴拉奧·坎巴漢帕提（Subbarao Kambhampati）。2024 年，他的團隊對 GPT-4 做了系統性的規劃能力測試。結果：GPT-4 自主生成可執行計劃的成功率平均只有大約百分之十二。更致命的是，當研究者刻意混淆動作和物件的名稱——比如把「把積木 A 放到 B 上面」改成用無意義的代號——模型的表現急劇下降。這意味著 GPT-4 做的不是推理，而是模式匹配。它「會」解題，很可能只是因為它見過類似的題目。

火花之後

如果故事到這裡就結束，Sparks of AGI 可能只會被記住為一場學術爭吵的導火線。但 Bubeck 做了一件讓這篇論文的意義延伸得更遠的事。

他把目擊報告變成了研究計劃。

在訪談中，Bubeck 明確說：「在 Sparks of AGI 論文之後，我們決定要『理解』LLM 中發生了什麼，就必須嘗試建造我們自己的版本。」

這催生了 Phi 系列小模型。2023 年 6 月，Phi-1 發表——只有 13 億參數（GPT-4 被推測有超過一兆參數），但在程式設計任務上表現出奇地好。核心創新來自 Eldan 的「Textbooks Are All You Need」方法論：與其餵模型整個網際網路的垃圾數據，不如只餵它高品質的「教科書級」資料。Phi-2 在 27 億參數下表現媲美大五倍的模型。到 Phi-3 和 Phi-4，微軟已經建立了一條完整的小模型產品線。

思想連結很清楚：如果 GPT-4 確實展現了「智慧的火花」，那理解這些火花的機制，就需要從更小、更可控的實驗對象開始。

Bubeck 和 Eldan 自己的故事也有了新發展。2024 年 10 月，Bubeck 離開了待了十年的微軟研究院，加入 OpenAI——那間他在論文中宣稱做出了 AGI 火花的公司。Eldan 也去了 OpenAI。微軟花了大力氣培養的 AI 研究領袖，最終被他們最大的合作夥伴挖走了。AI 頂尖人才的流動，從來不會停下來。

三年後，火花還在嗎

站在 2026 年 3 月回望，Sparks of AGI 最有趣的遺產可能不是它的結論，而是它引爆的問題。

推理模型的出現——OpenAI 的 o1（2024 年 9 月）和 o3（2025 年）、DeepSeek 的 R1（2025 年 1 月）——部分驗證了論文的直覺，也部分驗證了批評者的擔憂。這些模型不再只是「預測下一個 token」，它們會先「思考」再回答——生成一條內部推理鏈，然後根據推理結果輸出答案。o3 在 AIME 2024 數學競賽上達到 96.7% 的準確率，在 GPQA Diamond 專家級科學問題上達到 87.7%。

但 Sparks 論文也被證明過於樂觀了。Francois Chollet 設計的 ARC-AGI-2（2025 年發布的抽象推理測試）結果冷酷無情：純大型語言模型得分 0%。零。所有模型。每個任務都有至少兩名人類在兩次嘗試內完成。大模型可以寫莎士比亞風格的數學證明、可以通過律師資格考試、可以在程式設計面試中擊敗大多數人——但在最基本的抽象推理上，它們仍然一塌糊塗。

如同我們在系列第十六篇〈量變何時成為質變〉中討論的，這是一個「鋸齒狀的前沿」——聖塔菲研究所的梅蘭妮·乙契爾（Melanie Mitchell）用這個詞來形容大型語言模型的能力分布。它們在某些任務上驚人地好，在其他任務上驚人地差。這不是 AGI 的特徵。

2024 年 6 月，前 OpenAI 超級對齊團隊成員利奧波德·阿申布倫納（Leopold Aschenbrenner）發表了 Situational Awareness——我們系列的下一篇將會介紹。他把 Sparks 論文的「火花」觀察外推成了一套完整的 AGI 時間線預測：按照 GPT-2 到 GPT-4 的進步速度，2027 年應該會出現又一次質性飛躍。

但 Aschenbrenner 寫 Situational Awareness 的時候是 2024 年中。到了 2026 年 3 月，AI 能力的進步看起來更像是漸進式的改善——而不是 Sparks 論文描述的那種讓人震驚的跳躍。

正確的直覺，過度的宣稱

Sparks of Artificial General Intelligence 在 Semantic Scholar 上有超過 2,700 次引用，是 2023 年最高引用的 AI 論文之一。它被 Elon Musk 的律師用作對 OpenAI 訴訟中的證據。它催生了 Melanie Mitchell 在 Science 上關於 AGI 辯論的專題論文。它間接催生了 Phi 系列小模型。它讓「AGI」這個詞從學術界的禁忌變成了餐桌上的話題。

批評者說對了：這篇論文的方法論確實不嚴謹，作者確實有利益衝突，「AGI」這個詞確實用得太寬鬆，那些驚豔的示範確實存在 cherry-picking 的嫌疑。Kambhampati 的百分之十二計劃成功率，比獨角獸 TikZ 更接近 GPT-4 的真實能力邊界。

但 Bubeck 團隊也看見了一些真實的東西。GPT-4 確實能做到之前的 AI 系統做不到的事——不只是「做得更好」，而是做到了質性上不同的事情。你可以爭論那是不是「AGI」，但你不能假裝那些能力不存在。

問題出在「火花」這個隱喻。火花暗示著方向——有火花就會有大火。但三年過去了，大火沒有來。來的是一場漫長的、複雜的、充滿迂迴的技術演進。推理模型的出現證明了標準的自回歸架構確實不夠——恰如論文自己在第八節承認的那樣——需要額外的機制（內部推理鏈、搜索、驗證）才能更接近真正的智慧。

這篇論文提出了正確的直覺，做出了過度的宣稱，然後被自己的後續研究部分修正。在科學的歷史上，這也許不是最壞的結局。

而寫出這篇論文的兩位核心作者——Bubeck 和 Eldan——現在都在 OpenAI。他們不再只是目擊者。他們正試著把火花變成別的東西。

至於那個東西到底是什麼，三年後的今天，我們仍然不知道。