你的模型吃不飽:一篇論文如何證明整個 AI 產業都在浪費算力

2022 年 3 月,DeepMind 發表 Chinchilla 論文,用超過 400 次訓練實驗證明:業界普遍把模型做太大、數據餵太少。一個 700 億參數的模型打敗了四倍大的 Gopher,直接推翻了 Kaplan Scaling Laws 的核心建議。這篇論文改變了 LLaMA、Gemma 等後續所有大模型的訓練策略,催生了『Chinchilla optimal』這個產業標準概念,也間接孕育了歐洲最有價值的 AI 公司 Mistral AI。

你的模型吃不飽:一篇論文如何證明整個 AI 產業都在浪費算力

本文為「AI 經典文獻回顧」系列第十四篇,介紹 DeepMind 於 2022 年 3 月發表的論文《Training Compute-Optimal Large Language Models》,圈內人稱之為「Chinchilla 論文」。這篇論文修正了 Kaplan Scaling Laws 的核心結論,證明業界一直在浪費算力——模型做太大,數據餵太少。上一篇見〈「請一步一步想」:五個字如何解鎖了大型語言模型的推理能力〉。

封面圖


一封寄給整個產業的勘誤信

2022 年 3 月,AI 領域正處在一場參數量軍備競賽的高峰。

兩年前,GPT-3 用 1,750 億參數震驚了世界。2021 年底,微軟和 NVIDIA 聯手推出了 5,300 億參數的 Megatron-Turing NLG。DeepMind 自己也在 2021 年 12 月發布了 2,800 億參數的 Gopher。整個產業的邏輯很直覺:更大的模型就是更好的模型。而這個直覺有數學背書——2020 年 1 月,Jared Kaplan 等人在 Scaling Laws 論文中給出的建議是,當算力預算增加時,應該把大部分資源投入加大模型,數據量不用增加太多。

如同我們在系列第十篇〈一篇物理學家寫的論文,如何給了矽谷砸千億美元的數學底氣〉中詳細討論的,Kaplan 的結論是:計算預算增加十倍時,參數量應該增加約 5.5 倍,訓練數據量只需增加約 1.8 倍。這個建議被整個產業奉為聖經。GPT-3 用 1,750 億參數但只餵了 3,000 億個 token——每個參數平均只看到 1.7 個 token。Gopher 更極端:2,800 億參數,同樣只有 3,000 億 token,每個參數只分到 1.07 個 token。

然後 DeepMind 自己的團隊發了一篇論文,基本上是在說:我們之前做的 Gopher?浪費了。不只我們,GPT-3 也浪費了。整個產業都在浪費算力。

這篇論文就是《Training Compute-Optimal Large Language Models》。他們用來驗證結論的那個模型,叫 Chinchilla。


三條路殊途同歸

Chinchilla 論文做的事情,概念上其實很簡單:當你有一筆固定的算力預算,該怎麼分配模型大小和訓練數據量,才能讓模型表現最好?

但他們不只用一種方法回答這個問題。他們用了三種完全不同的分析方法,看三條路是否會走到同一個答案。

第一種方法:在每個固定的算力預算下,訓練一大堆不同大小的模型。因為總算力 C ≈ 6ND(N 是參數量,D 是 token 數),模型越大能看的 token 就越少,反之亦然。他們跑了超過 400 次訓練,橫跨六個數量級的算力。每個預算下,把損失函數畫成模型大小的函數,會得到一條 U 型曲線——模型太小會欠擬合,太大又因為數據不夠而表現不佳。曲線的最低點就是那個預算下的最佳模型大小。

第二種方法叫 IsoFLOP 分析。概念類似但分析框架不同:定義九條等算力曲線(IsoFLOP profiles),在每條曲線上找最佳模型大小,然後看這些最佳點怎麼隨算力變化。

第三種方法更數學化:直接擬合一個損失函數的參數形式 L(N, D) = E + A/N^α + B/D^β,其中 E 是語言本身的不可約熵,另外兩項分別代表模型大小和數據量的貢獻。用拉格朗日優化在 C = 6ND 的約束下求最優解。

三種方法的結果:

方法 N 最優指數 D 最優指數
方法一 0.50 0.50
方法二 0.49 0.51
方法三 0.46 0.54

三條路走到了同一個地方:模型大小和訓練數據量應該以大致相同的比例擴增。 不是 Kaplan 說的「七三開偏向參數量」,而是「五五開」。

翻譯成實用經驗法則:每個參數大約需要 20 個訓練 token。一個 700 億參數的模型,需要 1.4 兆個 token 的訓練數據。

這個數字跟當時業界的實踐差了一個數量級。


四分之一的身軀,打贏四倍的對手

有了理論,需要驗證。DeepMind 做了一件很有說服力的事:他們用和 Gopher 幾乎相同的算力預算(約 5.76 × 10²³ FLOPs),但完全不同的分配方式,訓練了 Chinchilla。

Chinchilla Gopher
參數量 700 億 2,800 億
訓練 Token 1.4 兆 3,000 億
Token/參數 20 1.07
算力 ~5.76 × 10²³ FLOPs ~5.76 × 10²³ FLOPs

同樣的算力,Chinchilla 把模型縮小到四分之一,但數據量灌到將近五倍。

結果?Chinchilla 在幾乎所有基準測試上都打敗了 Gopher。最令人印象深刻的是 MMLU(大規模多任務語言理解):Chinchilla 拿到 67.5%,Gopher 只有 60.0%。一個小四倍的模型,靠吃更多數據,硬生生高出 7.5 個百分點。

這不只是學術上的勝利。一個 700 億參數的模型在推理時的記憶體需求和計算成本大約只有 2,800 億參數模型的四分之一。同樣的表現(甚至更好),部署成本砍四分之三。如果你是一家需要在生產環境中服務數百萬用戶的公司,這個差距就是能部署和不能部署的差距。


Kaplan 為什麼會算錯?

這是一個值得細想的問題。Kaplan 的 Scaling Laws 不是隨便猜的——那是系統性的大規模實驗。為什麼他們會得出「參數量優先」這個後來被證明有偏差的結論?

Chinchilla 團隊指出了幾個方法論上的問題。

第一,Kaplan 的訓練跑得不夠久。他們的許多數據點來自尚未收斂的模型。如果你在模型還沒學完的時候就停下來測量,大模型會看起來比小模型「進步更快」——因為大模型確實每一步學得更多。但這不代表小模型在充分訓練後不會追上來。Chinchilla 的實驗確保了每個模型都有足夠的訓練時間。

第二,學習率排程沒有獨立調整。標準的 cosine learning rate schedule 會在訓練結束時衰減到接近零。如果你用同一個排程比較訓練一萬步和十萬步的模型,跑得更久的模型有更大比例的時間處在低學習率狀態,這會讓額外數據看起來沒什麼用。Chinchilla 針對每個訓練長度獨立調校了排程。

第三,範圍不夠大。Kaplan 測試的最大模型約十幾億參數,在 2020 年已算大,但跟 GPT-3 的千億參數相比微不足道。在較小的範圍裡,加大模型確實比加多數據更有效。但當尺度拉大,數據的重要性就追上來了——正如我們在系列第十篇所提到的,這是物理學中常見的現象:一個在小尺度上穩固的規律,在大尺度下需要修正。


一群寫勘誤信的人,後來去了哪裡

Chinchilla 論文有 22 位作者,全部來自 DeepMind。這張作者名單本身就是一個觀察 AI 人才流動的窗口。

Arthur Mensch 是其中一位共同作者。他在 ENS Paris 完成學業後加入 DeepMind,親身參與了 Chinchilla 的研究。2023 年 5 月,他從 DeepMind 離職,拉了兩位 Meta/FAIR 的同事——Guillaume Lample 和 Timothée Lacroix——在巴黎共同創辦了 Mistral AI。

這不是巧合。Mensch 在 DeepMind 學到的最重要一課,正是 Chinchilla 的核心發現:你不需要最大的模型,你需要最高效的模型。Mistral AI 的第一個產品就是 Mistral 7B——一個 70 億參數的模型,靠充分的訓練數據和精巧的工程,在多數基準上打敗了參數量是它兩倍的 LLaMA 2 13B。

Mistral AI 的崛起速度驚人。2023 年 6 月以 1.05 億歐元的種子輪創下歐洲 AI 種子輪紀錄;2025 年 9 月 C 輪融資 17 億歐元,估值達 117 億歐元(約 140 億美元),ASML 領投,成為歐洲最有價值的 AI 公司。三位創辦人的身價各達約 11 億美元。Mensch 在 2025 年 5 月獲頒法國國家功績騎士勳章,2026 年初宣布計畫 IPO,年營收目標破 10 億歐元。

論文的其他作者同樣走出了不同的軌跡。Jack Rae 是 Gopher 論文的主要作者——Chinchilla 某種程度上是在修正他自己之前那篇論文的結論。他後來離開 DeepMind,2025 年 6 月加入 Meta Superintelligence Labs 擔任 Distinguished Scientist。Karen Simonyan,VGGNet 的作者之一,離開 DeepMind 後加入 Inflection AI,後來隨 Mustafa Suleyman 的團隊轉入 Microsoft AI 擔任 Chief Scientist。Laurent SifreOriol Vinyals 則留在 Google DeepMind,分別在 Gemini 的開發中扮演核心角色——Sifre 是資深技術領導,Vinyals 是研究副總裁。

一篇論文的作者名單,折射出三條不同的路線:留在大公司做旗艦模型、出去創業做高效模型、跳槽到競爭對手。


Chinchilla Optimal:從論文結論到產業標準

Chinchilla 論文發表後,「Chinchilla optimal」迅速成為 AI 產業的標準用語。「這個模型是 Chinchilla optimal 嗎?」——這句話取代了「這個模型有多少參數?」成為評估一個新模型的第一個問題。

效果最直接的是 Meta 的 LLaMA 系列。2023 年 2 月,Meta 發布 LLaMA,論文中明確引用了 Chinchilla,並且走得更遠——LLaMA-7B 用 1 兆個 token 訓練(每個參數 143 個 token),LLaMA-65B 用 1.4 兆 token(每個參數 22 個 token),都遠超 Chinchilla 建議的 20 token/參數比例。LLaMA-13B 在多數基準上打敗了 GPT-3——一個 130 億參數的模型打敗 1,750 億,差距 13 倍。

Meta 為什麼要「超額訓練」(over-train)?因為他們看到了 Chinchilla 沒有明說的下一步:Chinchilla 優化的是「訓練算力」,但實際部署中,推理成本才是大頭。一個模型訓練一次,但可能被數百萬用戶呼叫數十億次。如果多花一點訓練成本,換來一個小四倍的模型,推理省下的錢遠遠超過多花的訓練錢。

這個邏輯推到極致,就是 LLaMA 3:80 億參數,訓練了 15 兆個 token——每個參數 1,875 個 token,是 Chinchilla 建議的 94 倍。聽起來瘋狂,但經濟學上完全合理。

如同我們在系列第十一篇介紹 Gwern 的〈從數據到信仰〉時提到的,Scaling 的思想一直在被修正和擴展。Chinchilla 修正了 Kaplan,而 over-training 趨勢又修正了 Chinchilla——不是否定它,而是把「最優」的定義從「訓練最優」擴展到「部署最優」。


數據牆:Chinchilla 揭示的新瓶頸

Chinchilla 證明了數據和參數同等重要,但這個結論帶來了一個新問題:數據從哪裡來?

如果模型需要越來越多的訓練數據,而高品質的文本是有限的,遲早會撞牆。各種估計把網際網路上的高品質英文文本總量放在 5 到 15 兆 token 的範圍。LLaMA-3-8B 的 15 兆 token 已經逼近這個上限。

這直接催生了兩條應對路線。一條是合成數據——用 AI 來生成訓練 AI 的數據,微軟的 Phi 系列是最成功的案例之一。另一條是多 epoch 訓練——同一批數據重複使用,研究顯示大約到第四輪之後收益會顯著遞減。

Chinchilla 揭開的這個「數據瓶頸」問題,至今仍是 AI 領域最核心的挑戰之一。


2022 年的思想星座

把 Chinchilla 放進 2022 年的脈絡裡看,它是一個更大拼圖的關鍵一塊。

2022 年 1 月,如同我們在系列第十三篇介紹的,Jason Wei 等人發表了 Chain-of-Thought Prompting,發現只要在 prompt 裡加入推理步驟,就能解鎖大型語言模型的推理能力——這是「推理時算力」的起點。同年 6 月,Wei 又發表了 Emergent Abilities 論文,提出大模型存在「湧現能力」——某些能力只在跨過特定規模門檻後突然出現。而 Chinchilla 重新定義了什麼是「規模」:不只是參數量,而是參數量乘以數據量的高效組合。如果湧現能力取決於總訓練算力而非純參數量,那 Chinchilla 意味著你可以用更小的模型、更高效的方式到達那個門檻。

三篇論文在同一年發表,卻從三個不同角度回答了同一個問題:怎麼讓 AI 更聰明?Chinchilla 說「高效訓練」,Chain-of-Thought 說「聰明提問」,Emergent Abilities 說「只要夠大就會質變」。三者結合的啟示是:用 Chinchilla 的方式高效訓練一個夠大的基座模型,然後用 Chain-of-Thought 的方式在推理時激發它的湧現能力——這基本上就是 2024 年 OpenAI o1 和 2025 年 DeepSeek-R1 的技術路線圖。

我們將在系列第十六篇介紹 Emergent Abilities 論文時,更詳細地討論這個「2022 年星座」的完整脈絡。


一張比例尺度圖的遺產

站在 2026 年回望,Chinchilla 論文最深遠的影響不是那個「20 token/參數」的具體數字——這個數字早已被 over-training 趨勢超越。它最深遠的影響是一個認知上的修正:AI 模型的訓練是一個二維最優化問題(參數量和數據量),不是一維的(只有參數量)。

在 Chinchilla 之前,整個產業的隱含邏輯是「越大越好」。在 Chinchilla 之後,問題變成了「在我的預算裡,什麼是最高效的配置?」這個思維轉換重新導向了數千億美元的算力投資,從盲目堆參數,轉向精打細算的資源分配。

而 Chinchilla 和 Kaplan Scaling Laws 之間的關係,本身就是科學進步的一個漂亮範例。Kaplan 在 2020 年建立了框架,Chinchilla 在 2022 年修正了係數。框架沒有被推翻,但關鍵結論被調整了。這正是我們在系列第十篇結尾提到的那個風險:一個精確測量卻不完全理解的經驗規律,隨時可能在新的尺度上需要修正。Chinchilla 就是那個修正。

更有意思的是,Chinchilla 本身也已經被修正了。Over-training 趨勢證明,當你把推理成本納入考量,最優解會進一步偏向更小的模型和更多的數據。但 Chinchilla 的核心洞見——數據和參數同等重要——從未被動搖。

它提出了正確的問題,給出了在當時條件下最好的答案,並且改變了整個產業問問題的方式。對一篇論文來說,這已經是最好的遺產。