規模的力量——從 GPipe 到 Scaling Laws,Sutskever 清單中最有商業影響力的論文
Sutskever 閱讀清單的前八篇處理的是「怎麼讓模型更聰明」,這篇的四個項目問的是不同的問題:怎麼讓模型更大,以及更大真的更好嗎。從 GPipe 的管線平行化到 Scaling Laws 的冪律曲線,這是 AI 產業史上最昂貴的信仰背後的技術基礎。

本文為「Ilya Sutskever 推薦讀什麼」系列第 9 篇。本系列解讀 OpenAI 共同創辦人蘇茨克維(Ilya Sutskever)給 John Carmack 的傳奇閱讀清單,探索一位頂尖 AI 科學家眼中「90% 重要的東西」。
清單到這裡,問題變了
走到第 9 篇,我們已經看過很多東西。壓縮即理解(篇 1-2),智慧的數學定義(篇 3),CNN 教機器看圖(篇 4),RNN 讓機器記住順序(篇 5),注意力機制讓模型回頭看(篇 6),Transformer 把注意力變成唯一主角(篇 7),外部記憶和關係推理指向 AGI 的野心(篇 8)。這些主題有一個共同的問句:怎麼讓模型更聰明?
但 Sutskever 的清單到了第 10、12、13、23 項,問的問題突然不一樣了。不再是「怎麼讓模型更聰明」,而是「怎麼讓模型更大」,以及一個更根本的追問:「更大真的更好嗎?」
這四個項目橫跨了工程、經驗定律、視覺架構和化學,表面上看不出什麼共通點。GPipe 是 Google Brain 2018 年的管線平行化論文,解決的是「模型太大放不進一張 GPU」這個工程問題。Scaling Laws 是 OpenAI 2020 年用物理學方法畫出的冪律曲線。膨脹卷積(Dilated Convolutions)是一種不增加參數就能看更遠的視覺技巧。訊息傳遞神經網路(Neural Message Passing)把深度學習推進了化學分子的領域。但把它們放在一起,你會看到一條清楚的線索:規模、效率和壓縮,這三件事在 Sutskever 的腦中是同一件事的不同面向。
GPipe:把大模型拆開練
2018 年,深度學習社群面臨一個尷尬的現實。研究者已經知道更大的模型通常表現更好,但「更大」受到硬體的物理限制。一張 GPU 的記憶體是固定的,當模型的參數量超過單張 GPU 能容納的上限,你就訓練不了它。最直覺的解法是「資料平行化」:把訓練資料分散到多張 GPU 上,每張 GPU 跑同一個模型的副本,最後彙總梯度。但這個方法有一個前提:模型本身得塞得進一張 GPU。當模型大到連一張 GPU 都放不下,資料平行化就失效了。
Google Brain 的 Yanping Huang 等人在 2018 年 11 月提出了 GPipe,一個優雅到幾乎像常識的解法。他們把模型「縱向切開」,像切蛋糕一樣分成好幾段,每段放在一張 GPU 上。第一段處理完一批資料,把中間結果傳給第二段,第二段再傳給第三段,以此類推。這就是「模型平行化」的核心概念。但純粹的模型平行化有一個嚴重的效率問題:當第二段在處理資料的時候,第一段和第三段都在閒置,GPU 的使用率極低。想像一條工廠流水線,第二站在組裝零件的時候,第一站和第三站的工人只能坐著等。
GPipe 的巧妙之處在於「微批次」(micro-batch)。它不是把整批資料一次性丟進管線,而是把一個批次切成更小的微批次,然後像流水線排班一樣依序送入。第一段處理完微批次 1,把結果傳給第二段,然後立刻開始處理微批次 2。這樣一來,管線中的每一段幾乎時刻都在工作。所有微批次處理完之後,再把梯度加總起來做一次同步更新,確保訓練的數學正確性不受影響。
這篇論文在 NeurIPS 2019 正式發表時,亮出了一個讓人倒抽一口氣的數字:他們在 128 張加速器上訓練了一個 839 億參數的 Transformer 模型,是單張加速器能容納的 298 倍。在那個 GPT-2 只有 15 億參數的年代,839 億是科幻級的數字。而且 GPipe 的設計非常通用,它不綁定任何特定的模型架構,不需要改模型本身的程式碼,只要模型能被切成連續的層就行。
GPipe 本身後來沒有成為最廣泛使用的訓練框架。NVIDIA 的 Megatron-LM 和微軟的 DeepSpeed 在工程實作上做了進一步的最佳化,跑得比 GPipe 更快、更穩。但 GPipe 確立的核心思想,微批次管線平行化加上同步梯度累積,成了所有後續大模型訓練框架的基本架構。從 GPT-3 的 1,750 億參數,到 GPT-4 傳聞中數兆參數的混合專家架構,再到 Google 的 PaLM、Anthropic 的 Claude,每一個大型語言模型的訓練過程都站在 GPipe 開闢的路徑上。Sutskever 把這篇論文放進清單,因為它回答了一個聽起來無聊但真正要命的問題:我們已經知道更大的模型更好了,但到底要怎麼「練得出來」?
Scaling Laws:Sutskever 押注規模的數學底氣
GPipe 解決了「怎麼練更大」的工程問題,但還有一個更根本的問題沒有回答:更大真的更好嗎?是無條件地更好,還是好到某個程度就停了?如果是前者,那砸多少錢都值得;如果是後者,那就需要知道天花板在哪裡。
2020 年 1 月,OpenAI 的 Jared Kaplan 等人發表了〈Scaling Laws for Neural Language Models〉,用數百個實驗系統性地回答了這個問題。他們的發現可以濃縮成一句話:語言模型的表現和參數量、資料量、計算量之間存在冪律關係,在對數座標上幾乎是一條直線。不是「大致上有關」,而是數學上可預測到令人不安的程度。
關於這篇論文的技術細節和它如何拆出了 Anthropic 的故事,AINEXT 已經寫過完整的兩篇深度拆解:[〈一篇物理學家寫的論文,如何給了矽谷砸千億美元的數學底氣〉]({{< ref "20200123-scaling-laws-neural-language-models" >}})和[〈一篇論文,拆出了 Anthropic:Scaling Laws 背後的人與路線之爭〉]({{< ref "20200123-scaling-laws-people-and-impact" >}}),這裡不重複。我想做的是從 Sutskever 的角度重新看這篇論文在清單中的位置。
Sutskever 是 OpenAI 內部最早、也最堅定的「規模信仰者」。在 2017-2018 年,多數研究者還在追求演算法上的巧妙創新,想用更聰明的方法讓小模型做到大模型的效果。Sutskever 的直覺恰好相反:與其想辦法讓小模型變聰明,不如直接把模型做大。這個信念在當時是逆流的。但 Scaling Laws 論文把這個直覺變成了方程式。它告訴你,如果你想讓模型的 loss 下降多少,你需要增加多少參數、多少資料、多少算力,而且是可預測的。這不再是信仰,這是工程計劃。
從 Sutskever 後來在多個公開場合的發言中,可以拼湊出他對 AI 發展的分期觀。2012 年到 2020 年是「研究時代」,新想法主導一切,AlexNet、LSTM、Transformer、注意力機制,每一個突破都是概念上的跳躍。2020 年到 2025 年是「規模時代」,核心想法已經確定(Transformer + 自回歸預訓練),剩下的就是把模型做大、資料做多、算力堆上去。Scaling Laws 論文就是這兩個時代之間的分水嶺。它讓「做大」從一種直覺變成了一張可執行的路線圖,也讓矽谷有了砸千億美元的數學底氣。
但 Sutskever 把 Scaling Laws 放進清單,我認為還有一層更深的意思。回到本系列的核心主題:壓縮即理解。如果更大的模型表現更好,而模型的任務本質上是壓縮資料(預測下一個 token 等於壓縮),那 Scaling Laws 說的其實是:更大的壓縮器能找到更深層的規律。一個 15 億參數的模型能學到語法和基本語義,一個 1,750 億參數的模型能學到推理和世界知識,一個萬億參數的模型也許能觸及更抽象的結構。規模不是目的,規模是通往更深層壓縮的手段。
兩篇看似離題的技術論文
清單的第 12 項和第 13 項,乍看之下跟「規模」這個主題搭不上邊。一篇是關於影像分割的卷積技巧,另一篇是把神經網路應用到化學分子上。但如果你帶著「壓縮與效率」的眼鏡去看,它們各自說了一件有意思的事。
膨脹卷積:不變大也能看更遠
Fisher Yu 和 Vladlen Koltun 在 2015 年發表的〈Multi-Scale Context Aggregation by Dilated Convolutions〉(ICLR 2016),提出了一個簡潔的想法:如果你想讓卷積核「看到」更大範圍的輸入,傳統做法是加大卷積核或堆疊更多層。但這兩條路都有代價:不是增加參數量,就是降低解析度。膨脹卷積的做法是在卷積核的取樣點之間插入空隙。一個 3×3 的卷積核,膨脹率為 2 的時候,取樣範圍等同於 5×5,膨脹率為 4 的時候等同於 9×9,但實際參數量始終是 3×3 的 9 個參數。
這個技巧在語義分割任務中特別有用。語義分割要求模型對圖片中每一個像素做分類:這棵樹、那條路、這個人。所以你既需要大範圍的上下文(知道整個場景是什麼),又需要保持像素級的精確度。傳統的池化(pooling)操作可以擴大感受野,但會犧牲解析度。膨脹卷積兩者兼得:感受野指數增長,但解析度和參數量都不變。
Fisher Yu 當時在普林斯頓大學攻讀博士,後來到了 ETH Zurich 擔任教授,專注於電腦視覺和自動駕駛。Koltun 則先後在 Intel 擔任視覺計算首席科學家,2021 年轉到 Apple 擔任傑出科學家。這篇論文的影響遠超語義分割:膨脹卷積後來被大量用在 WaveNet(Google 的語音合成模型)和各種時序模型中,因為同樣的邏輯適用於任何需要「用少量參數捕捉長距離依賴」的場景。
Sutskever 選這篇論文,我猜是因為它示範了「壓縮效率」的另一面。GPipe 和 Scaling Laws 告訴你「大就是好」,膨脹卷積則補上了另一半故事:在單一元件的層面,用更少的參數捕捉更多的結構,同樣是一種力量。這跟「做大」不矛盾,反而是「做大」的前提。如果每個元件都浪費參數,你堆再多層也只是在浪費算力。規模和效率不是對立的,它們是同一枚硬幣的兩面。
訊息傳遞神經網路:當 AI 走進分子世界
清單第 13 項是 Google Brain 的 Justin Gilmer、Samuel S. Schoenholz、Patrick F. Riley、Oriol Vinyals 和 George E. Dahl 在 2017 年發表的〈Neural Message Passing for Quantum Chemistry〉(ICML 2017)。這篇論文做了兩件事:首先,它把當時已經存在的多種圖神經網路(Graph Neural Network)方法,包括 GCN、Gated Graph Neural Networks、Interaction Networks 等,統一成一個叫做 MPNN(Message Passing Neural Network)的框架;其次,它把這個框架應用到化學分子的性質預測上,在 QM9 資料集上取得了超越傳統方法的結果。
圖神經網路的直覺很好懂。分子就是一個圖:原子是節點,化學鍵是邊。傳統的機器學習方法要先把分子「壓平」成一個固定長度的特徵向量(所謂的分子指紋),壓的過程中,三維結構資訊就丟了。MPNN 的做法是讓節點之間直接「傳遞訊息」:每個原子把自己的狀態傳給相鄰的原子,收到訊息的原子更新自己的狀態,這個過程重複好幾輪之後,每個原子的表徵就包含了它周圍環境的資訊。最後,一個「讀出」函數把所有原子的表徵彙總成整個分子的表徵。
這篇論文之後,MPNN 框架成為化學和生物領域 AI 應用的標準詞彙。後續的 D-MPNN(用在 Chemprop 藥物篩選工具中)、Attentive FP 等模型都直接建構在這個框架上。更廣泛地說,MPNN 的影響延伸到了材料科學(催化劑設計)、蛋白質結構預測(AlphaFold 的內部也使用了類似的訊息傳遞機制)和逆合成分析。
Sutskever 把一篇化學論文放進 AI 閱讀清單,意思再清楚不過:AI 的壓縮能力不只適用於語言和影像。分子是一種結構,蛋白質是一種結構,材料的晶體排列是一種結構,社交網路是一種結構。只要資料有結構,就可以壓縮。只要可以壓縮,深度學習就有用武之地。這篇論文示範的是「壓縮即理解」這個哲學的跨領域泛化能力。
我的觀察:規模是手段,不是目的
寫到這裡,一個問題自然浮現:如果 Sutskever 是 AI 領域最堅定的規模信仰者,為什麼他在 2024 年離開了 OpenAI,創辦了一家叫 SSI(Safe Superintelligence Inc.)的公司?
線索就在這四篇論文的排列中。GPipe 解決了「怎麼練更大」,Scaling Laws 證明了「更大真的更好」,但膨脹卷積和 MPNN 說的是另一件事:重要的不是大,重要的是每一個參數能捕捉多少結構。規模從來不是目的,它是通往更深層壓縮的手段。當預訓練資料接近有限的天花板,當冪律曲線開始彎折,你需要的不是繼續堆 GPU,而是找到新的壓縮方式。
Sutskever 在 2025 年底接受 Dwarkesh Patel 的訪談時,把他自己的生涯分成了「研究時代」和「規模時代」,然後暗示第三個時代即將到來。他沒有明說那是什麼,但從他一路以來的信念推測,那可能是某種超越現有 Transformer + 自回歸框架的新壓縮範式。他離開 OpenAI,也許正是因為他認為繼續在現有框架上堆規模已經接近盡頭,而找到下一個範式需要一種不同的研究環境。
回到清單本身。這四篇論文構成了一個完整的論證。GPipe 讓你練得出大模型,Scaling Laws 告訴你大模型確實更好,膨脹卷積提醒你每個參數都該被用好,MPNN 證明壓縮的邏輯可以推到語言和影像之外。四篇合在一起,Sutskever 的訊息是:規模很重要,但規模服務的是壓縮。更大的模型之所以更好,是因為它有更多的參數可以用來發現更深層的結構。搞懂了這一點,你就不會盲目崇拜大,也不會天真地相信小而美能解決一切。你會去找那個讓每一個參數都發揮最大壓縮效率的甜蜜點。
下一篇,我們要處理清單中最「實用主義」的一組論文:從變分自編碼器到 Variational Lossy Autoencoder,Sutskever 清單如何看待「有損壓縮」與「生成」之間的深層連結。
← 上一篇:記憶、推理、關係理解 → 下一篇:有損壓縮也是一種智慧 📋 回到系列目錄:那份消失的 Email