你的模型吃不飽:一篇論文如何證明整個 AI 產業都在浪費算力
2022 年 3 月,DeepMind 發表 Chinchilla 論文,用超過 400 次訓練實驗證明:業界普遍把模型做太大、數據餵太少。一個 700 億參數的模型打敗了四倍大的 Gopher,直接推翻了 Kaplan Scaling Laws 的核心建議。這篇論文改變了 LLaMA、Gemma 等後續所有大模型的訓練策略,催生了『Chinchilla optimal』這個產業標準概念,也間接孕育了歐洲最有價值的 AI 公司 Mistral AI。

本文為「AI 經典文獻回顧」系列第十四篇,介紹 DeepMind 於 2022 年 3 月發表的論文《Training Compute-Optimal Large Language Models》,圈內人稱之為「Chinchilla 論文」。這篇論文修正了 Kaplan Scaling Laws 的核心結論,證明業界一直在浪費算力——模型做太大,數據餵太少。上一篇見〈「請一步一步想」:五個字如何解鎖了大型語言模型的推理能力〉。

一封寄給整個產業的勘誤信
2022 年 3 月,AI 領域正處在一場參數量軍備競賽的高峰。
兩年前,GPT-3 用 1,750 億參數震驚了世界。2021 年底,微軟和 NVIDIA 聯手推出了 5,300 億參數的 Megatron-Turing NLG。DeepMind 自己也在 2021 年 12 月發布了 2,800 億參數的 Gopher。整個產業的邏輯很直覺:更大的模型就是更好的模型。而這個直覺有數學背書——2020 年 1 月,Jared Kaplan 等人在 Scaling Laws 論文中給出的建議是,當算力預算增加時,應該把大部分資源投入加大模型,數據量不用增加太多。
如同我們在系列第十篇〈一篇物理學家寫的論文,如何給了矽谷砸千億美元的數學底氣〉中詳細討論的,Kaplan 的結論是:計算預算增加十倍時,參數量應該增加約 5.5 倍,訓練數據量只需增加約 1.8 倍。這個建議被整個產業奉為聖經。GPT-3 用 1,750 億參數但只餵了 3,000 億個 token——每個參數平均只看到 1.7 個 token。Gopher 更極端:2,800 億參數,同樣只有 3,000 億 token,每個參數只分到 1.07 個 token。
然後 DeepMind 自己的團隊發了一篇論文,基本上是在說:我們之前做的 Gopher?浪費了。不只我們,GPT-3 也浪費了。整個產業都在浪費算力。
這篇論文就是《Training Compute-Optimal Large Language Models》。他們用來驗證結論的那個模型,叫 Chinchilla。
三條路殊途同歸
Chinchilla 論文做的事情,概念上其實很簡單:當你有一筆固定的算力預算,該怎麼分配模型大小和訓練數據量,才能讓模型表現最好?
但他們不只用一種方法回答這個問題。他們用了三種完全不同的分析方法,看三條路是否會走到同一個答案。
第一種方法:在每個固定的算力預算下,訓練一大堆不同大小的模型。因為總算力 C ≈ 6ND(N 是參數量,D 是 token 數),模型越大能看的 token 就越少,反之亦然。他們跑了超過 400 次訓練,橫跨六個數量級的算力。每個預算下,把損失函數畫成模型大小的函數,會得到一條 U 型曲線——模型太小會欠擬合,太大又因為數據不夠而表現不佳。曲線的最低點就是那個預算下的最佳模型大小。
第二種方法叫 IsoFLOP 分析。概念類似但分析框架不同:定義九條等算力曲線(IsoFLOP profiles),在每條曲線上找最佳模型大小,然後看這些最佳點怎麼隨算力變化。
第三種方法更數學化:直接擬合一個損失函數的參數形式 L(N, D) = E + A/N^α + B/D^β,其中 E 是語言本身的不可約熵,另外兩項分別代表模型大小和數據量的貢獻。用拉格朗日優化在 C = 6ND 的約束下求最優解。
三種方法的結果:
| 方法 | N 最優指數 | D 最優指數 |
|---|---|---|
| 方法一 | 0.50 | 0.50 |
| 方法二 | 0.49 | 0.51 |
| 方法三 | 0.46 | 0.54 |
三條路走到了同一個地方:模型大小和訓練數據量應該以大致相同的比例擴增。 不是 Kaplan 說的「七三開偏向參數量」,而是「五五開」。
翻譯成實用經驗法則:每個參數大約需要 20 個訓練 token。一個 700 億參數的模型,需要 1.4 兆個 token 的訓練數據。
這個數字跟當時業界的實踐差了一個數量級。
四分之一的身軀,打贏四倍的對手
有了理論,需要驗證。DeepMind 做了一件很有說服力的事:他們用和 Gopher 幾乎相同的算力預算(約 5.76 × 10²³ FLOPs),但完全不同的分配方式,訓練了 Chinchilla。
| Chinchilla | Gopher | |
|---|---|---|
| 參數量 | 700 億 | 2,800 億 |
| 訓練 Token | 1.4 兆 | 3,000 億 |
| Token/參數 | 20 | 1.07 |
| 算力 | ~5.76 × 10²³ FLOPs | ~5.76 × 10²³ FLOPs |
同樣的算力,Chinchilla 把模型縮小到四分之一,但數據量灌到將近五倍。
結果?Chinchilla 在幾乎所有基準測試上都打敗了 Gopher。最令人印象深刻的是 MMLU(大規模多任務語言理解):Chinchilla 拿到 67.5%,Gopher 只有 60.0%。一個小四倍的模型,靠吃更多數據,硬生生高出 7.5 個百分點。
這不只是學術上的勝利。一個 700 億參數的模型在推理時的記憶體需求和計算成本大約只有 2,800 億參數模型的四分之一。同樣的表現(甚至更好),部署成本砍四分之三。如果你是一家需要在生產環境中服務數百萬用戶的公司,這個差距就是能部署和不能部署的差距。
Kaplan 為什麼會算錯?
這是一個值得細想的問題。Kaplan 的 Scaling Laws 不是隨便猜的——那是系統性的大規模實驗。為什麼他們會得出「參數量優先」這個後來被證明有偏差的結論?
Chinchilla 團隊指出了幾個方法論上的問題。
第一,Kaplan 的訓練跑得不夠久。他們的許多數據點來自尚未收斂的模型。如果你在模型還沒學完的時候就停下來測量,大模型會看起來比小模型「進步更快」——因為大模型確實每一步學得更多。但這不代表小模型在充分訓練後不會追上來。Chinchilla 的實驗確保了每個模型都有足夠的訓練時間。
第二,學習率排程沒有獨立調整。標準的 cosine learning rate schedule 會在訓練結束時衰減到接近零。如果你用同一個排程比較訓練一萬步和十萬步的模型,跑得更久的模型有更大比例的時間處在低學習率狀態,這會讓額外數據看起來沒什麼用。Chinchilla 針對每個訓練長度獨立調校了排程。
第三,範圍不夠大。Kaplan 測試的最大模型約十幾億參數,在 2020 年已算大,但跟 GPT-3 的千億參數相比微不足道。在較小的範圍裡,加大模型確實比加多數據更有效。但當尺度拉大,數據的重要性就追上來了——正如我們在系列第十篇所提到的,這是物理學中常見的現象:一個在小尺度上穩固的規律,在大尺度下需要修正。
一群寫勘誤信的人,後來去了哪裡
Chinchilla 論文有 22 位作者,全部來自 DeepMind。這張作者名單本身就是一個觀察 AI 人才流動的窗口。
Arthur Mensch 是其中一位共同作者。他在 ENS Paris 完成學業後加入 DeepMind,親身參與了 Chinchilla 的研究。2023 年 5 月,他從 DeepMind 離職,拉了兩位 Meta/FAIR 的同事——Guillaume Lample 和 Timothée Lacroix——在巴黎共同創辦了 Mistral AI。
這不是巧合。Mensch 在 DeepMind 學到的最重要一課,正是 Chinchilla 的核心發現:你不需要最大的模型,你需要最高效的模型。Mistral AI 的第一個產品就是 Mistral 7B——一個 70 億參數的模型,靠充分的訓練數據和精巧的工程,在多數基準上打敗了參數量是它兩倍的 LLaMA 2 13B。
Mistral AI 的崛起速度驚人。2023 年 6 月以 1.05 億歐元的種子輪創下歐洲 AI 種子輪紀錄;2025 年 9 月 C 輪融資 17 億歐元,估值達 117 億歐元(約 140 億美元),ASML 領投,成為歐洲最有價值的 AI 公司。三位創辦人的身價各達約 11 億美元。Mensch 在 2025 年 5 月獲頒法國國家功績騎士勳章,2026 年初宣布計畫 IPO,年營收目標破 10 億歐元。
論文的其他作者同樣走出了不同的軌跡。Jack Rae 是 Gopher 論文的主要作者——Chinchilla 某種程度上是在修正他自己之前那篇論文的結論。他後來離開 DeepMind,2025 年 6 月加入 Meta Superintelligence Labs 擔任 Distinguished Scientist。Karen Simonyan,VGGNet 的作者之一,離開 DeepMind 後加入 Inflection AI,後來隨 Mustafa Suleyman 的團隊轉入 Microsoft AI 擔任 Chief Scientist。Laurent Sifre 和 Oriol Vinyals 則留在 Google DeepMind,分別在 Gemini 的開發中扮演核心角色——Sifre 是資深技術領導,Vinyals 是研究副總裁。
一篇論文的作者名單,折射出三條不同的路線:留在大公司做旗艦模型、出去創業做高效模型、跳槽到競爭對手。
Chinchilla Optimal:從論文結論到產業標準
Chinchilla 論文發表後,「Chinchilla optimal」迅速成為 AI 產業的標準用語。「這個模型是 Chinchilla optimal 嗎?」——這句話取代了「這個模型有多少參數?」成為評估一個新模型的第一個問題。
效果最直接的是 Meta 的 LLaMA 系列。2023 年 2 月,Meta 發布 LLaMA,論文中明確引用了 Chinchilla,並且走得更遠——LLaMA-7B 用 1 兆個 token 訓練(每個參數 143 個 token),LLaMA-65B 用 1.4 兆 token(每個參數 22 個 token),都遠超 Chinchilla 建議的 20 token/參數比例。LLaMA-13B 在多數基準上打敗了 GPT-3——一個 130 億參數的模型打敗 1,750 億,差距 13 倍。
Meta 為什麼要「超額訓練」(over-train)?因為他們看到了 Chinchilla 沒有明說的下一步:Chinchilla 優化的是「訓練算力」,但實際部署中,推理成本才是大頭。一個模型訓練一次,但可能被數百萬用戶呼叫數十億次。如果多花一點訓練成本,換來一個小四倍的模型,推理省下的錢遠遠超過多花的訓練錢。
這個邏輯推到極致,就是 LLaMA 3:80 億參數,訓練了 15 兆個 token——每個參數 1,875 個 token,是 Chinchilla 建議的 94 倍。聽起來瘋狂,但經濟學上完全合理。
如同我們在系列第十一篇介紹 Gwern 的〈從數據到信仰〉時提到的,Scaling 的思想一直在被修正和擴展。Chinchilla 修正了 Kaplan,而 over-training 趨勢又修正了 Chinchilla——不是否定它,而是把「最優」的定義從「訓練最優」擴展到「部署最優」。
數據牆:Chinchilla 揭示的新瓶頸
Chinchilla 證明了數據和參數同等重要,但這個結論帶來了一個新問題:數據從哪裡來?
如果模型需要越來越多的訓練數據,而高品質的文本是有限的,遲早會撞牆。各種估計把網際網路上的高品質英文文本總量放在 5 到 15 兆 token 的範圍。LLaMA-3-8B 的 15 兆 token 已經逼近這個上限。
這直接催生了兩條應對路線。一條是合成數據——用 AI 來生成訓練 AI 的數據,微軟的 Phi 系列是最成功的案例之一。另一條是多 epoch 訓練——同一批數據重複使用,研究顯示大約到第四輪之後收益會顯著遞減。
Chinchilla 揭開的這個「數據瓶頸」問題,至今仍是 AI 領域最核心的挑戰之一。
2022 年的思想星座
把 Chinchilla 放進 2022 年的脈絡裡看,它是一個更大拼圖的關鍵一塊。
2022 年 1 月,如同我們在系列第十三篇介紹的,Jason Wei 等人發表了 Chain-of-Thought Prompting,發現只要在 prompt 裡加入推理步驟,就能解鎖大型語言模型的推理能力——這是「推理時算力」的起點。同年 6 月,Wei 又發表了 Emergent Abilities 論文,提出大模型存在「湧現能力」——某些能力只在跨過特定規模門檻後突然出現。而 Chinchilla 重新定義了什麼是「規模」:不只是參數量,而是參數量乘以數據量的高效組合。如果湧現能力取決於總訓練算力而非純參數量,那 Chinchilla 意味著你可以用更小的模型、更高效的方式到達那個門檻。
三篇論文在同一年發表,卻從三個不同角度回答了同一個問題:怎麼讓 AI 更聰明?Chinchilla 說「高效訓練」,Chain-of-Thought 說「聰明提問」,Emergent Abilities 說「只要夠大就會質變」。三者結合的啟示是:用 Chinchilla 的方式高效訓練一個夠大的基座模型,然後用 Chain-of-Thought 的方式在推理時激發它的湧現能力——這基本上就是 2024 年 OpenAI o1 和 2025 年 DeepSeek-R1 的技術路線圖。
我們將在系列第十六篇介紹 Emergent Abilities 論文時,更詳細地討論這個「2022 年星座」的完整脈絡。
一張比例尺度圖的遺產
站在 2026 年回望,Chinchilla 論文最深遠的影響不是那個「20 token/參數」的具體數字——這個數字早已被 over-training 趨勢超越。它最深遠的影響是一個認知上的修正:AI 模型的訓練是一個二維最優化問題(參數量和數據量),不是一維的(只有參數量)。
在 Chinchilla 之前,整個產業的隱含邏輯是「越大越好」。在 Chinchilla 之後,問題變成了「在我的預算裡,什麼是最高效的配置?」這個思維轉換重新導向了數千億美元的算力投資,從盲目堆參數,轉向精打細算的資源分配。
而 Chinchilla 和 Kaplan Scaling Laws 之間的關係,本身就是科學進步的一個漂亮範例。Kaplan 在 2020 年建立了框架,Chinchilla 在 2022 年修正了係數。框架沒有被推翻,但關鍵結論被調整了。這正是我們在系列第十篇結尾提到的那個風險:一個精確測量卻不完全理解的經驗規律,隨時可能在新的尺度上需要修正。Chinchilla 就是那個修正。
更有意思的是,Chinchilla 本身也已經被修正了。Over-training 趨勢證明,當你把推理成本納入考量,最優解會進一步偏向更小的模型和更多的數據。但 Chinchilla 的核心洞見——數據和參數同等重要——從未被動搖。
它提出了正確的問題,給出了在當時條件下最好的答案,並且改變了整個產業問問題的方式。對一篇論文來說,這已經是最好的遺產。