一百五十五頁的火花:GPT-4 發布八天後,微軟宣稱看見了 AGI
2023 年 3 月,GPT-4 發布僅八天後,微軟研究院 14 位研究員提交了一篇 155 頁的論文,宣稱在 GPT-4 身上觀察到了「通用人工智慧的早期火花」。他們不做標準測試,而是讓 GPT-4 用程式碼畫獨角獸、以莎士比亞風格寫數學證明、通過心理學的心智理論測試。這篇論文成為 2023 年最高引用的 AI 論文之一——也引爆了 AI 領域最激烈的一場辯論。

本文為「AI 經典文獻回顧」系列第十八篇,介紹 Sébastien Bubeck 等 14 位微軟研究員於 2023 年 3 月發表的論文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》。這篇 155 頁的論文宣稱 GPT-4 展現了 AGI 的早期火花,同時也引發了 AI 學術界最激烈的路線之爭。上一篇見〈十六條原則:一篇論文如何用 AI 取代五萬個人類判斷〉;再上一篇見〈量變何時成為質變〉。
八天
2023 年 3 月是 AI 歷史上最混亂的月份。
十一月底,ChatGPT 發布,兩個月內突破一億用戶,成為人類史上成長最快的消費者應用。二月,微軟搶在 Google 之前推出整合了早期 GPT-4 的 Bing Chat。三月一日,OpenAI 開放 ChatGPT API。三月十四日,GPT-4 正式發布——同一天,Anthropic 推出了 Claude。三月二十一日,Google 匆忙上線 Bard。
整個科技產業正處於一種集體恍惚的狀態。每個人都在試用 ChatGPT,每間公司都在重寫 AI 策略,每個投資人都在尋找下一個「AI 原生」新創。但幾乎沒有人搞清楚這些大型語言模型到底在做什麼——它們是真的「理解」語言,還是只是在做非常高級的自動補全?
在這個混亂中,GPT-4 發布後的第八天——2023 年 3 月 22 日——微軟研究院的 14 位研究員在 arXiv 上放了一篇論文。
一百五十五頁。
標題是:《Sparks of Artificial General Intelligence: Early experiments with GPT-4》。
翻譯過來就是:通用人工智慧的火花。
一份不像論文的論文
這篇論文在幾乎所有方面都是異類。
首先是篇幅。正文九十五頁,加上附錄共一百五十五頁。在 AI 領域,一篇標準的頂會論文大約八到十頁。就算是綜述型的長文,也很少超過五十頁。一百五十五頁——這不是論文,這是一本書。
其次是方法論。傳統 AI 論文的套路是:提出模型→在 benchmark 上跑分→跟基線比較→宣稱 state-of-the-art。Bubeck 團隊完全不做這些。他們不跑 benchmark,不做量化評估,不跟其他模型比較。他們做的事情更接近質性研究:設計一個又一個跨領域的挑戰性任務,然後看 GPT-4 怎麼應對。
他們管這叫「質性評估」。批評者管這叫「軼事集」。
第三是他們對 AGI 的定義。這是整篇論文最基礎也最受爭議的選擇。他們沒有用 AI 領域常見的 AGI 定義(那些定義太多了,而且彼此矛盾),而是回到了 1994 年一份由心理學家琳達·葛特弗雷德森(Linda Gottfredson)主導、52 位研究者在《華爾街日報》上聯署的聲明——「Mainstream Science on Intelligence」。那份聲明把智慧定義為「一種非常通用的心智能力,包括推理、計劃、解決問題、抽象思考、理解複雜概念、快速學習以及從經驗中學習的能力」。
然後,他們沿著這個定義的每一個軸線——推理、創造力、編碼、數學、醫學、法律、心理學——逐一測試 GPT-4。
火花長什麼樣子
測試的結果,是這篇論文被瘋傳的原因。
最著名的是獨角獸實驗。研究者要求 GPT-4 用 TikZ(LaTeX 的繪圖語言)畫一隻獨角獸。GPT-4 生成了一段程式碼,跑出來真的是一隻看得出來是獨角獸的圖形。然後研究者做了一件更狠的事:他們大幅修改程式碼,故意把獨角獸的角刪掉,再把修改後的版本丟回給 GPT-4,問它「這隻獨角獸缺了什麼?請修復。」GPT-4 成功辨識出角被移除了,並修復了程式碼。
這件事之所以震撼,不是因為「AI 會畫畫」。而是因為 GPT-4 似乎同時「理解」了三件事:獨角獸長什麼樣子、TikZ 程式碼的語法結構、以及兩者之間的對應關係。它看著一堆程式碼,就能推斷出畫面中少了角——這需要某種形式的「視覺想像力」,即使這個模型在訓練時從未見過一張圖片。
類似的驚豔展示還有很多。他們讓 GPT-4 以莎士比亞的風格——每行押韻——寫出「質數有無限多個」的數學證明。他們讓它解 LeetCode 程式設計面試題,十分鐘內擊敗 93% 到 100% 的人類使用者。他們用心理學的 Sally-Anne 測試來檢驗它的心智理論——GPT-4 通過了。
但論文並不只是一連串「看 GPT-4 多厲害」的炫技。研究者花了大量篇幅討論 GPT-4 的局限性。第八節整整一章在分析模型的規劃能力為什麼不行——他們認為這是自回歸架構(一個 token 接一個 token 往前生成,不能回頭修改)的根本限制。模型會幻覺、會犯基本的算術錯誤、在長鏈推理中會失去一致性。論文結尾甚至直接說:要邁向更深層的 AGI,可能需要超越「預測下一個 token」的全新範式。
這是整篇論文最微妙的地方。它一方面宣稱看見了 AGI 的火花,另一方面又承認這些火花隨時可能熄滅。
誰寫了這份報告
十四位作者全部來自微軟研究院。
第一作者賽巴斯蒂安·布貝克(Sébastien Bubeck),1985 年生於法國,巴黎高等師範學院卡尚分校畢業,2010 年在里爾第一大學拿到博士學位,研究主題是多臂賭博機(multi-armed bandits)和統計學習理論。二十六歲就成為普林斯頓大學助理教授。2014 年加入微軟研究院,一路做到生成式 AI 研究副總裁。他的學術功底極其扎實——STOC 2023 最佳論文、NeurIPS 2018 和 2021 兩次最佳論文、COLT 2016 最佳論文。他寫的凸優化教科書《Convex Optimization: Algorithms and Complexity》是領域標準讀物。
第二個值得注意的作者是羅南·埃爾丹(Ronen Eldan),以色列數學家,Weizmann 科學研究所教授。他在 2023 年拿到了數學新視野突破獎(New Horizons Breakthrough Prize in Mathematics)——這是數學界最高級別的獎項之一。他是 Phi 系列小模型的核心推手,靈感來自一個出人意料的場景:每天晚上為女兒讀故事。他注意到幼兒能從極少量但高品質的故事中學到語言結構,由此提出了「Textbooks Are All You Need」方法論——後來成為 Phi-1 的基礎。
「Sparks」這個標題來自微軟首席科學官艾瑞克·乎維茲(Eric Horvitz)。他觀察了研究團隊的實驗後,將 GPT-4 在各個領域展現的意外能力形容為「明亮的小火花」。
但這裡有一個房間裡的大象:微軟在 2023 年初已經向 OpenAI 投資超過一百億美元,正把 GPT 模型整合到從 Bing 到 Office 365 的全線產品中。微軟研究員發表一篇論文,宣稱自己合作夥伴的模型是 AGI 的早期形式——這裡面的利益衝突,幾乎不需要點破。
Vice 雜誌的標題直接寫:「微軟現在宣稱 GPT-4 展現了通用智慧的火花。」
學術界炸了
論文發表兩天後,紐約大學名譽教授蓋瑞·馬庫斯(Gary Marcus)就在 Substack 上丟出了一篇長文,標題是一個問句:「The Sparks of AGI? Or the End of Science?」——AGI 的火花,還是科學的終結?
Marcus 的批評刀刀見骨。第一刀:方法論。一百五十五頁的質性案例研究,沒有對照組、沒有可重複性、沒有統計顯著性——這是「偽裝成科學的新聞稿」。第二刀:cherry-picking。有研究者嘗試複製論文中的示範,「五個提示中有四個無法複製」。第三刀:AGI 定義。按照論文選擇的 1994 年智慧定義,計算機甚至 Siri 是不是也能算「早期但不完整的 AGI」?第四刀:訓練資料污染。OpenAI 持續將使用者的互動納入訓練語料庫——這意味著模型可能只是在重複它見過的巧妙回答,而不是在「理解」。
華盛頓大學的艾蜜莉·乙紐兒(Emily Bender)——如果你讀過這個系列的第十二篇〈當鸚鵡學會說話〉,你對她不會陌生——從另一個角度開火。她在 Medium 上寫了一篇文章叫〈Resist the Urge to be Impressed〉(不要被表象迷惑)。她的核心論點跟兩年前一樣:大型語言模型是隨機鸚鵡,它們根據統計機率拼接訓練資料中見過的語言片段。GPT-4 畫得出獨角獸不代表它「理解」獨角獸——它只是見過夠多的 TikZ 程式碼和獨角獸的文字描述。
「隨機鸚鵡」vs「AGI 的火花」——兩年前和兩年後,這場辯論的基本格局沒有改變。
Meta 的首席 AI 科學家楊立昆(Yann LeCun)更直接。他反覆強調「自回歸 LLM 絕對不可能達到人類智慧」,甚至稱「通用智慧」這個概念本身就是「徹底的胡說八道」。他主張需要全新的架構——比如他提出的 JEPA(Joint Embedding Predictive Architecture)世界模型——才有可能接近真正的智慧。
最有力的實證反駁來自亞利桑那州立大學的蘇巴拉奧·坎巴漢帕提(Subbarao Kambhampati)。2024 年,他的團隊對 GPT-4 做了系統性的規劃能力測試。結果:GPT-4 自主生成可執行計劃的成功率平均只有大約百分之十二。更致命的是,當研究者刻意混淆動作和物件的名稱——比如把「把積木 A 放到 B 上面」改成用無意義的代號——模型的表現急劇下降。這意味著 GPT-4 做的不是推理,而是模式匹配。它「會」解題,很可能只是因為它見過類似的題目。
火花之後
如果故事到這裡就結束,Sparks of AGI 可能只會被記住為一場學術爭吵的導火線。但 Bubeck 做了一件讓這篇論文的意義延伸得更遠的事。
他把目擊報告變成了研究計劃。
在訪談中,Bubeck 明確說:「在 Sparks of AGI 論文之後,我們決定要『理解』LLM 中發生了什麼,就必須嘗試建造我們自己的版本。」
這催生了 Phi 系列小模型。2023 年 6 月,Phi-1 發表——只有 13 億參數(GPT-4 被推測有超過一兆參數),但在程式設計任務上表現出奇地好。核心創新來自 Eldan 的「Textbooks Are All You Need」方法論:與其餵模型整個網際網路的垃圾數據,不如只餵它高品質的「教科書級」資料。Phi-2 在 27 億參數下表現媲美大五倍的模型。到 Phi-3 和 Phi-4,微軟已經建立了一條完整的小模型產品線。
思想連結很清楚:如果 GPT-4 確實展現了「智慧的火花」,那理解這些火花的機制,就需要從更小、更可控的實驗對象開始。
Bubeck 和 Eldan 自己的故事也有了新發展。2024 年 10 月,Bubeck 離開了待了十年的微軟研究院,加入 OpenAI——那間他在論文中宣稱做出了 AGI 火花的公司。Eldan 也去了 OpenAI。微軟花了大力氣培養的 AI 研究領袖,最終被他們最大的合作夥伴挖走了。AI 頂尖人才的流動,從來不會停下來。
三年後,火花還在嗎
站在 2026 年 3 月回望,Sparks of AGI 最有趣的遺產可能不是它的結論,而是它引爆的問題。
推理模型的出現——OpenAI 的 o1(2024 年 9 月)和 o3(2025 年)、DeepSeek 的 R1(2025 年 1 月)——部分驗證了論文的直覺,也部分驗證了批評者的擔憂。這些模型不再只是「預測下一個 token」,它們會先「思考」再回答——生成一條內部推理鏈,然後根據推理結果輸出答案。o3 在 AIME 2024 數學競賽上達到 96.7% 的準確率,在 GPQA Diamond 專家級科學問題上達到 87.7%。
但 Sparks 論文也被證明過於樂觀了。Francois Chollet 設計的 ARC-AGI-2(2025 年發布的抽象推理測試)結果冷酷無情:純大型語言模型得分 0%。零。所有模型。每個任務都有至少兩名人類在兩次嘗試內完成。大模型可以寫莎士比亞風格的數學證明、可以通過律師資格考試、可以在程式設計面試中擊敗大多數人——但在最基本的抽象推理上,它們仍然一塌糊塗。
如同我們在系列第十六篇〈量變何時成為質變〉中討論的,這是一個「鋸齒狀的前沿」——聖塔菲研究所的梅蘭妮·乙契爾(Melanie Mitchell)用這個詞來形容大型語言模型的能力分布。它們在某些任務上驚人地好,在其他任務上驚人地差。這不是 AGI 的特徵。
2024 年 6 月,前 OpenAI 超級對齊團隊成員利奧波德·阿申布倫納(Leopold Aschenbrenner)發表了 Situational Awareness——我們系列的下一篇將會介紹。他把 Sparks 論文的「火花」觀察外推成了一套完整的 AGI 時間線預測:按照 GPT-2 到 GPT-4 的進步速度,2027 年應該會出現又一次質性飛躍。
但 Aschenbrenner 寫 Situational Awareness 的時候是 2024 年中。到了 2026 年 3 月,AI 能力的進步看起來更像是漸進式的改善——而不是 Sparks 論文描述的那種讓人震驚的跳躍。
正確的直覺,過度的宣稱
Sparks of Artificial General Intelligence 在 Semantic Scholar 上有超過 2,700 次引用,是 2023 年最高引用的 AI 論文之一。它被 Elon Musk 的律師用作對 OpenAI 訴訟中的證據。它催生了 Melanie Mitchell 在 Science 上關於 AGI 辯論的專題論文。它間接催生了 Phi 系列小模型。它讓「AGI」這個詞從學術界的禁忌變成了餐桌上的話題。
批評者說對了:這篇論文的方法論確實不嚴謹,作者確實有利益衝突,「AGI」這個詞確實用得太寬鬆,那些驚豔的示範確實存在 cherry-picking 的嫌疑。Kambhampati 的百分之十二計劃成功率,比獨角獸 TikZ 更接近 GPT-4 的真實能力邊界。
但 Bubeck 團隊也看見了一些真實的東西。GPT-4 確實能做到之前的 AI 系統做不到的事——不只是「做得更好」,而是做到了質性上不同的事情。你可以爭論那是不是「AGI」,但你不能假裝那些能力不存在。
問題出在「火花」這個隱喻。火花暗示著方向——有火花就會有大火。但三年過去了,大火沒有來。來的是一場漫長的、複雜的、充滿迂迴的技術演進。推理模型的出現證明了標準的自回歸架構確實不夠——恰如論文自己在第八節承認的那樣——需要額外的機制(內部推理鏈、搜索、驗證)才能更接近真正的智慧。
這篇論文提出了正確的直覺,做出了過度的宣稱,然後被自己的後續研究部分修正。在科學的歷史上,這也許不是最壞的結局。
而寫出這篇論文的兩位核心作者——Bubeck 和 Eldan——現在都在 OpenAI。他們不再只是目擊者。他們正試著把火花變成別的東西。
至於那個東西到底是什麼,三年後的今天,我們仍然不知道。