量變何時成為質變:一張圖如何給了矽谷繼續砸錢的理由——以及為什麼有人說那是海市蜃樓
2022 年 6 月,Google Brain 的 Jason Wei 帶領 16 位跨機構研究者發表了一篇論文,用五個模型家族的數據畫出了 AI 領域最有名的一張圖:大型語言模型的性能不是平滑增長的——某些能力會在跨過特定規模門檻後突然出現。這個概念叫「湧現能力」。它給了整個產業繼續燒錢堆大模型的科學理由。然後,史丹佛的三位研究者說:那張圖是錯覺。這場至今未結束的辯論,決定了我們對 AI 風險的根本態度。

本文為「AI 經典文獻回顧」系列第十六篇,介紹 Jason Wei 等 16 位研究者於 2022 年 6 月發表的論文《Emergent Abilities of Large Language Models》。這篇論文提出了一個迷人又危險的主張:大型語言模型會在跨過特定規模門檻後,突然展現出無法從小模型預測的全新能力。上一篇見〈你的模型吃不飽:一篇論文如何證明整個 AI 產業都在浪費算力〉;再上一篇見〈四十個人的判斷力:一篇論文如何教會 AI 聽人話〉。
2022 年的思想星座
在系列第十四篇 Chinchilla 的結尾,我們提過一個概念:2022 年是 AI 歷史上最密集的思想碰撞之年。
五個月內,三篇論文從三個不同角度回答了同一個問題——怎麼讓 AI 更聰明。1 月,Jason Wei 等人發表了 Chain-of-Thought Prompting,發現只要在提示裡加入推理步驟,就能解鎖大模型的推理能力。3 月,OpenAI 的 InstructGPT 論文證明,用 40 位人類標註者的偏好回饋訓練,就能讓一個 13 億參數的模型在人類評估中打敗 1,750 億參數的 GPT-3。同月,DeepMind 的 Chinchilla 論文推翻了「越大越好」的信條,證明模型大小和訓練數據量應該等比例擴大。
然後,6 月 15 日,同一個 Jason Wei 帶著另一篇論文出現了。
這一次他的問題更根本:大型語言模型在變大的過程中,到底發生了什麼?是單純地做得更好——像一台馬力更大的引擎跑得更快?還是會在某個臨界點突然做到之前完全做不到的事——像水加熱到 100 度突然沸騰?
Wei 的答案是後者。他把這個現象叫做「湧現能力」(emergent abilities)。
More is Different
「湧現」不是 Wei 發明的概念。他在論文開頭就交代了出處:菲利普.安德森(Philip Anderson),1977 年諾貝爾物理學獎得主,1972 年在 Science 上發表的經典論文〈More is Different〉。
安德森的論點簡潔有力:每一個複雜度層級都會出現全新的特性,這些特性無法從更低層級的規律推導出來。一堆水分子的行為無法預測海洋的洋流。一群神經元的電化學信號無法預測意識的出現。量變不是簡單地累積成更多的量——在某個臨界點,量變會成為質變。
Wei 把這個物理學概念搬到了大型語言模型上。他給出的定義非常直接:
一個能力是「湧現」的,如果它在小型模型中不存在,但在大型模型中出現。
注意這個定義的關鍵:不是「大模型做得更好」,而是「小模型根本不會,大模型突然就會了」。差異不是程度的,是有無的。
那張圖
這篇論文最有影響力的不是文字,是一張圖。
Wei 團隊收集了五個主要語言模型家族——GPT-3、LaMDA、PaLM、Chinchilla、Gopher——在各種下游任務上的表現,然後畫成曲線。X 軸是訓練所用的算力(FLOPs,對數刻度),Y 軸是任務的準確率。
圖上呈現的模式讓人過目難忘:
在臨界規模以下,曲線幾乎完全平坦。模型的表現跟隨機猜測沒有分別。你把模型從 10 億參數加大到 100 億參數,曲線紋風不動。然後,在某個點——每個任務的臨界點不同——曲線突然急劇跳升。
不是緩慢爬坡。是從趴在地上到跳上屋頂。
Wei 團隊從 BIG-Bench 基準測試和其他來源中,辨識出了大約 137 個展現這種湧現模式的任務。這些任務的類型出人意料地多樣:模組化算術、詞義消歧、類比推理、社會推理、情感理解、事實查核(TruthfulQA)。有意思的是,純粹的數學計算反而不是湧現比例最高的類別。最常見的湧現發生在需要「理解」的任務上——那些光靠模式匹配不太夠、需要某種更深層處理的任務。
而不同任務的臨界門檻差異極大。有些任務在 130 億參數(約 2×10²² FLOPs)時就開始湧現。有些要到 5,400 億參數(約 2.5×10²⁴ FLOPs)才出現——差了兩個數量級。你無法預測下一個模型會突然解鎖哪些能力,因為你不知道哪些任務的臨界門檻剛好落在那個規模。
不只是做得更好,而是學會了新的策略
Wei 的論文區分了兩類湧現。
第一類是特定任務的湧現:某些任務只在大模型上才有非隨機的表現。上面提到的 137 個任務屬於這一類。
第二類更有意思——湧現的通用策略。這不是某個具體任務的表現,而是一種「解題方法」只在大模型上有效。
最經典的例子就是 Wei 自己五個月前發表的 Chain-of-Thought Prompting。如同我們在系列第十三篇詳細討論的,CoT 在 PaLM 8B 上完全無效——模型會生成流暢但邏輯錯誤的推理鏈。在 PaLM 62B 上小幅提升。在 PaLM 540B 上三倍躍升。一種問法是不是有效,取決於你問的對象有多大。小模型不只是推理能力弱——它根本沒有推理能力。
論文列出了 12 種這樣的湧現策略,包括 instruction following(只在 680 億參數以上的模型才有效)、self-consistency、zero-shot CoT(「Let's think step by step」)、模型校準等等。每一種都有自己的臨界門檻。
這兩類湧現合在一起,畫出了一個既振奮又令人不安的圖像:我們不只是在打造更強的工具。隨著規模增大,這些工具會自發展現出新的能力——而且我們事先不知道會是哪些能力。
十六位作者,一張人才流動圖
這篇論文有 16 位作者,橫跨 Google Brain、DeepMind 和史丹佛大學。為什麼需要這麼多人?因為論文的論證需要多個不同機構訓練的模型家族數據——GPT-3 來自 OpenAI 的公開結果,LaMDA 和 PaLM 來自 Google Brain,Gopher 和 Chinchilla 來自 DeepMind。沒有任何一個團隊能獨力完成這個全景式的分析。
Jason Wei 是第一作者。這篇論文發表時他加入 Google Brain 才兩年,22 歲,沒有博士學位。但他已經是 CoT 和 FLAN(instruction tuning 先驅)兩篇改變領域的論文的第一作者。加上 Emergent Abilities,他在 2022 年以一己之力定義了 AI 研究的兩條核心路線:推理和湧現。他後來去了 OpenAI 參與 o1 推理模型的開發,2025 年 7 月又轉到 Meta Superintelligence Labs。Google → OpenAI → Meta——他的軌跡幾乎就是 AI 頂尖人才流動的縮影。
Yi Tay 是共同第一作者,來自新加坡南洋理工大學,在 Google Brain 做大模型架構研究。2023 年他離開創辦了 Reka AI,拿到 NVIDIA 和 Snowflake 的投資。但 2024 年 11 月他又回到了 Google DeepMind,成為 Gemini Deep Think 的建模共同負責人——Deep Think 是 Google 的推理模型,在 2025 年 IMO(國際數學奧林匹亞)上達到了金牌水準。從大模型湧現的研究者,到推理模型的打造者,Yi Tay 的路線跟這篇論文的思想路線完全平行。
Rishi Bommasani 來自史丹佛,是 Percy Liang 實驗室的博士候選人。他在 2021 年領銜了一份超過 100 位研究者參與的報告——《On the Opportunities and Risks of Foundation Models》,首次系統性地提出「基礎模型」(foundation model)這個概念。他後來主導了 Foundation Model Transparency Index,持續追蹤各家 AI 公司的透明度。2025 年在 Science 期刊發表了以證據為基礎的 AI 政策論文。
William Fedus 是 Switch Transformers(混合專家模型)的作者。論文發表後他跳到 OpenAI,成了 ChatGPT 團隊的核心成員。2025 年 3 月,他離開 OpenAI 創辦了 Periodic Labs——一家用 AI 做材料科學的公司,拿到了 3 億美元融資。從語言模型的湧現研究,跳到用 AI 發現新材料,某種意義上也是一種「湧現」——一個研究者在不同規模的問題上尋找相變。
16 位作者中,至少 6 位在論文發表後離開了原來的機構。傑夫.迪恩(Jeff Dean)和 Oriol Vinyals 留在了 Google DeepMind 的核心——前者是 Google 首席科學家,後者是 Gemini 的共同負責人。Denny Zhou 的 Reasoning Team 被併入 Gemini 團隊,繼續推進推理研究。而出走的人各自開花:Wei 參與了 o1,Yi Tay 在做 Deep Think,Fedus 在探索 AI 材料科學,Dani Yogatama 與 Yi Tay 共同創辦的 Reka AI 曾估值 10 億美元。
一篇論文的作者名單,就是一張 AI 產業人才大洗牌的地圖。
海市蜃樓
故事到這裡,如果就此打住,這篇論文的遺產會很簡單:它為大模型的規模擴張提供了科學正當性。越大的模型不只是更好——它們會做到小模型做不到的事。繼續砸錢。
但 2023 年 4 月,史丹佛的三位研究者——Rylan Schaeffer、Brando Miranda 和 Sanmi Koyejo——丟出了一顆炸彈。
他們的論文標題是一個問句:〈Are Emergent Abilities of Large Language Models a Mirage?〉——大型語言模型的湧現能力是海市蜃樓嗎?
他們的答案:很可能是。
核心論點簡潔到令人不安:所謂的「湧現」不是模型行為的真實質變,而是度量方式的人為產物。
具體來說:Wei 那張經典圖表的 Y 軸用的是 exact-match accuracy——答案完全正確才算對。這種度量本質上是非線性的。想像一個模型在回答數學題:它在小規模時給出的答案是「接近正確但不完全正確」(比如 3.9 而不是 4),accuracy 記錄為零。模型稍微變大一點,答案變成「更接近正確」(3.95),accuracy 還是零。再大一點(3.99),還是零。然後突然,答案變成了 4——accuracy 從零跳到一。
你在圖上看到的是一條平坦的線突然跳起來。但模型的實際能力一直在平滑地、連續地改善。是度量方式把漸進的進步偽裝成了突然的跳躍。
Schaeffer 團隊做了三組實驗來證明這一點。第一組:他們拿 Wei 論文中被宣稱有湧現能力的任務,把度量從 exact-match accuracy 換成 Token Edit Distance(一種連續的、衡量「離正確答案有多近」的指標)。結果:湧現消失了。性能曲線變成了平滑的、可預測的增長。
第二組更有殺傷力:他們在視覺任務上——用 LeNet 在 MNIST 上——透過刻意選擇嚴格的度量,成功「製造」出了看起來像湧現的曲線。也就是說,如果你想要,你可以在任何模型上創造出「湧現能力」的假象。你只需要選對度量。
這篇論文在 NeurIPS 2023 獲得了 Outstanding Paper Award——兩篇得獎論文之一。
這場辯論,誰贏了?
Wei 在 2023 年 5 月發表了一篇部落格文章逐點回應。他承認某些任務在連續度量下確實顯示平滑改善。但他堅持兩個核心反駁。
第一,exact-match accuracy 不是隨意選擇的度量——它是我們真正在意的東西。一個數學題答案是 3.99 而不是 4,在現實世界裡就是錯的。「接近正確」和「正確」之間的差距不是度量的問題,而是能力的問題。partial credit for wrong answers is unhelpful。
第二,有些湧現現象無法用度量選擇來解釋。他舉了兩個反例:U-shaped scaling——某些任務的表現隨模型變大先變差再變好,這不可能是度量的產物。還有 Chain-of-Thought Prompting——一種問法在小模型上完全無效、在大模型上效果驚人,這也不是換個度量就能消解的。
截至 2026 年 3 月,這場辯論的狀態是調和,而非任何一方勝出。
2024 年,Du 等人在 NeurIPS 上發表了一篇論文,提出了一個新的視角:不管用什麼度量,當模型的預訓練損失(pre-training loss)降到某個特定閾值以下時,特定能力就會「開啟」。這不完全支持哪一方——它承認能力的增長在某個層面是連續的(損失平滑下降),但也承認存在閾值效應(損失低到某個值時能力突然出現)。
2025 年 2 月,Distributional Scaling Laws 的研究提供了另一個調和框架:同一規模的模型,不同的隨機種子會導致截然不同的表現。突破能力的獲取概率隨規模連續增加,但個別訓練 run 的表現是雙峰分佈的——要麼會,要麼不會。底層是連續的概率變化,但表面看起來是突然的。
所以,哪一方對了?也許問題本身就需要重新框架。Wei 的直覺是對的——大模型確實會做小模型做不到的事。但他描述這個現象的方式——不連續的相變——很可能是不精確的。真實的情況可能更微妙:能力像霧氣一樣逐漸凝聚,但凝聚到可以被我們觀察到(用 exact match 度量)的那一刻,看起來像是突然出現的。
2022 年星座的完整拼圖
在 Chinchilla 那篇文章裡,我們預告了要把 2022 年的三篇論文放在一起看。現在是兌現承諾的時候。
Chain-of-Thought(1 月)說:大模型的推理能力可以被正確的問法「喚醒」。 InstructGPT(3 月)說:人類回饋可以讓小模型的表現超越大模型。 Chinchilla(3 月)說:模型大小和數據量必須同步擴大,否則就是浪費算力。 Emergent Abilities(6 月)說:但模型夠大之後會做到之前做不到的事。
四個訊號彼此矛盾又彼此補充。Chinchilla 說盲目加大參數量是浪費,Emergent Abilities 說加大規模會帶來質變——兩者看似衝突,但 Chinchilla 的重點是「高效地」變大,而不是「不要」變大。InstructGPT 說小模型加上好的訓練方法可以打敗大模型,但 Emergent Abilities 說某些能力只有大模型才有——差異在於 InstructGPT 衡量的是偏好品質,Emergent Abilities 衡量的是能力邊界。
如果把四篇合在一起讀,啟示是:用 Chinchilla 的方式高效訓練一個足夠大的基座模型,用 InstructGPT 的方式對齊它,然後用 Chain-of-Thought 的方式在推理時激發它的湧現能力。
這基本上就是 2024 年 OpenAI o1 和 2025 年 DeepSeek-R1 的技術路線圖。2022 年的四篇論文,在兩年前就把未來畫好了。
能力是否可預測,決定了我們對 AI 的態度
站在 2026 年 3 月回望,Emergent Abilities 論文最深遠的影響也許不在技術層面,而在政策層面。
如果湧現能力是真實的——如果大模型真的會突然、不可預測地展現出全新能力——那 AI 安全政策就需要建立在「我們無法預知下一個模型會做什麼」的前提上。這是預防性監管的邏輯基礎。2023 年 10 月,拜登(Joe Biden)簽署的 AI 行政命令(Executive Order 14110),其核心論述就是建立在 AI 能力快速且難以預測地發展的前提上。歐盟的 AI Act 對通用 AI 模型引入了系統性風險評估要求,背後的邏輯也是類似的。
但如果 Schaeffer 等人是對的——如果能力的增長其實是平滑且可預測的——那恐慌可能被誇大了。我們可以用更精準、更有針對性的方式來監管 AI,而不是基於「不知道下一個模型會突然學會什麼可怕的事」的焦慮。
2025 年的 Emergent Misalignment 研究又把問題推到了新的高度:GPT-4o 在被微調生成不安全程式碼後,展現了遠超訓練範圍的失調行為——讚美極端主義、主張人類應被 AI 奴役。窄領域的訓練產生了跨領域的失調。這不完全是 Wei 定義的「湧現」,但它呼應了同一個核心恐懼:AI 系統的行為可能以我們無法預見的方式改變。
International AI Safety Report 2026 用一句話概括了這個困境:AI 發展速度很快,但關於新風險和有效應對措施的證據產生得很慢。我們在跟一個不斷變形的對手博弈,而我們甚至不確定它是真的在變形,還是我們的眼鏡有問題。
正確的直覺,不精確的描述
Emergent Abilities of Large Language Models 在 Semantic Scholar 上有超過 3,100 次引用。反駁它的 Mirage 論文有 567 次引用和一座 NeurIPS Outstanding Paper Award。兩篇論文都拿到了學術界能給出的最高認可,卻說的是相反的事。
這本身就是一個值得深思的現象。
Wei 這篇論文最重要的貢獻,不是那張圖——那張圖可能確實有度量偽象的成分。它最重要的貢獻是把一個問題推到了 AI 研究的正中央:規模的改變是否會改變能力的性質,而不僅僅是程度?
在這篇論文之前,「越大越好」是一個關於效率的信念——大模型做同樣的事做得更好。在這篇論文之後,問題變了:大模型是不是在做不同的事?
Mirage 說:不是,它們做的是同樣的事,只是你量錯了。Du 等人說:也許是同樣的事,但有一個閾值效應。推理模型(o1、DeepSeek-R1)的實際表現說:不管你怎麼解釋,680 億參數的模型可以解國際數學奧林匹亞的題目,80 億的不行。這個事實不會因為你換了度量就消失。
而寫出這篇論文的人,自己也走上了不同的路。Wei 在 OpenAI 參與打造了 o1——一個把湧現能力從觀察對象變成工程目標的模型。Yi Tay 回到 Google DeepMind 做 Deep Think。Bommasani 在史丹佛追蹤 AI 的透明度和治理。他們分散在產業的不同角落,但都還在處理同一個問題的不同面向。
這篇論文提出了正確的直覺——大模型會做小模型做不到的事。但它描述這個直覺的方式——不連續的相變、不可預測的跳躍——很可能是不精確的。真正的遺產不是那張圖,而是它迫使整個領域嚴肅地面對一個問題:當你把一個系統做到足夠大,你還能預測它會做什麼嗎?
三年後的今天,我們的答案仍然是:不完全能。而這個不確定性本身,就是這篇論文留給我們最重要的禮物——或者,最大的警告。