AI 技術前沿

規模的力量——從 GPipe 到 Scaling Laws，Sutskever 清單中最有商業影響力的論文

Sutskever 閱讀清單的前八篇處理的是「怎麼讓模型更聰明」，這篇的四個項目問的是不同的問題：怎麼讓模型更大，以及更大真的更好嗎。從 GPipe 的管線平行化到 Scaling Laws 的冪律曲線，這是 AI 產業史上最昂貴的信仰背後的技術基礎。

2026 年 3 月 26 日 · 來源： Ilya Sutskever Recommended Reading (GitHub)

規模的力量——從 GPipe 到 Scaling Laws，Sutskever 清單中最有商業影響力的論文

本文為「Ilya Sutskever 推薦讀什麼」系列第 9 篇。本系列解讀 OpenAI 共同創辦人蘇茨克維（Ilya Sutskever）給 John Carmack 的傳奇閱讀清單，探索一位頂尖 AI 科學家眼中「90% 重要的東西」。

清單到這裡，問題變了

走到第 9 篇，我們已經看過很多東西。壓縮即理解（篇 1-2），智慧的數學定義（篇 3），CNN 教機器看圖（篇 4），RNN 讓機器記住順序（篇 5），注意力機制讓模型回頭看（篇 6），Transformer 把注意力變成唯一主角（篇 7），外部記憶和關係推理指向 AGI 的野心（篇 8）。這些主題有一個共同的問句：怎麼讓模型更聰明？

但 Sutskever 的清單到了第 10、12、13、23 項，問的問題突然不一樣了。不再是「怎麼讓模型更聰明」，而是「怎麼讓模型更大」，以及一個更根本的追問：「更大真的更好嗎？」

這四個項目橫跨了工程、經驗定律、視覺架構和化學，表面上看不出什麼共通點。GPipe 是 Google Brain 2018 年的管線平行化論文，解決的是「模型太大放不進一張 GPU」這個工程問題。Scaling Laws 是 OpenAI 2020 年用物理學方法畫出的冪律曲線。膨脹卷積（Dilated Convolutions）是一種不增加參數就能看更遠的視覺技巧。訊息傳遞神經網路（Neural Message Passing）把深度學習推進了化學分子的領域。但把它們放在一起，你會看到一條清楚的線索：規模、效率和壓縮，這三件事在 Sutskever 的腦中是同一件事的不同面向。

GPipe：把大模型拆開練

2018 年，深度學習社群面臨一個尷尬的現實。研究者已經知道更大的模型通常表現更好，但「更大」受到硬體的物理限制。一張 GPU 的記憶體是固定的，當模型的參數量超過單張 GPU 能容納的上限，你就訓練不了它。最直覺的解法是「資料平行化」：把訓練資料分散到多張 GPU 上，每張 GPU 跑同一個模型的副本，最後彙總梯度。但這個方法有一個前提：模型本身得塞得進一張 GPU。當模型大到連一張 GPU 都放不下，資料平行化就失效了。

Google Brain 的 Yanping Huang 等人在 2018 年 11 月提出了 GPipe，一個優雅到幾乎像常識的解法。他們把模型「縱向切開」，像切蛋糕一樣分成好幾段，每段放在一張 GPU 上。第一段處理完一批資料，把中間結果傳給第二段，第二段再傳給第三段，以此類推。這就是「模型平行化」的核心概念。但純粹的模型平行化有一個嚴重的效率問題：當第二段在處理資料的時候，第一段和第三段都在閒置，GPU 的使用率極低。想像一條工廠流水線，第二站在組裝零件的時候，第一站和第三站的工人只能坐著等。

GPipe 的巧妙之處在於「微批次」（micro-batch）。它不是把整批資料一次性丟進管線，而是把一個批次切成更小的微批次，然後像流水線排班一樣依序送入。第一段處理完微批次 1，把結果傳給第二段，然後立刻開始處理微批次 2。這樣一來，管線中的每一段幾乎時刻都在工作。所有微批次處理完之後，再把梯度加總起來做一次同步更新，確保訓練的數學正確性不受影響。

這篇論文在 NeurIPS 2019 正式發表時，亮出了一個讓人倒抽一口氣的數字：他們在 128 張加速器上訓練了一個 839 億參數的 Transformer 模型，是單張加速器能容納的 298 倍。在那個 GPT-2 只有 15 億參數的年代，839 億是科幻級的數字。而且 GPipe 的設計非常通用，它不綁定任何特定的模型架構，不需要改模型本身的程式碼，只要模型能被切成連續的層就行。

GPipe 本身後來沒有成為最廣泛使用的訓練框架。NVIDIA 的 Megatron-LM 和微軟的 DeepSpeed 在工程實作上做了進一步的最佳化，跑得比 GPipe 更快、更穩。但 GPipe 確立的核心思想，微批次管線平行化加上同步梯度累積，成了所有後續大模型訓練框架的基本架構。從 GPT-3 的 1,750 億參數，到 GPT-4 傳聞中數兆參數的混合專家架構，再到 Google 的 PaLM、Anthropic 的 Claude，每一個大型語言模型的訓練過程都站在 GPipe 開闢的路徑上。Sutskever 把這篇論文放進清單，因為它回答了一個聽起來無聊但真正要命的問題：我們已經知道更大的模型更好了，但到底要怎麼「練得出來」？

Scaling Laws：Sutskever 押注規模的數學底氣

GPipe 解決了「怎麼練更大」的工程問題，但還有一個更根本的問題沒有回答：更大真的更好嗎？是無條件地更好，還是好到某個程度就停了？如果是前者，那砸多少錢都值得；如果是後者，那就需要知道天花板在哪裡。

2020 年 1 月，OpenAI 的 Jared Kaplan 等人發表了〈Scaling Laws for Neural Language Models〉，用數百個實驗系統性地回答了這個問題。他們的發現可以濃縮成一句話：語言模型的表現和參數量、資料量、計算量之間存在冪律關係，在對數座標上幾乎是一條直線。不是「大致上有關」，而是數學上可預測到令人不安的程度。

關於這篇論文的技術細節和它如何拆出了 Anthropic 的故事，AINEXT 已經寫過完整的兩篇深度拆解：[〈一篇物理學家寫的論文，如何給了矽谷砸千億美元的數學底氣〉]({{< ref "20200123-scaling-laws-neural-language-models" >}})和[〈一篇論文，拆出了 Anthropic：Scaling Laws 背後的人與路線之爭〉]({{< ref "20200123-scaling-laws-people-and-impact" >}})，這裡不重複。我想做的是從 Sutskever 的角度重新看這篇論文在清單中的位置。

Sutskever 是 OpenAI 內部最早、也最堅定的「規模信仰者」。在 2017-2018 年，多數研究者還在追求演算法上的巧妙創新，想用更聰明的方法讓小模型做到大模型的效果。Sutskever 的直覺恰好相反：與其想辦法讓小模型變聰明，不如直接把模型做大。這個信念在當時是逆流的。但 Scaling Laws 論文把這個直覺變成了方程式。它告訴你，如果你想讓模型的 loss 下降多少，你需要增加多少參數、多少資料、多少算力，而且是可預測的。這不再是信仰，這是工程計劃。

從 Sutskever 後來在多個公開場合的發言中，可以拼湊出他對 AI 發展的分期觀。2012 年到 2020 年是「研究時代」，新想法主導一切，AlexNet、LSTM、Transformer、注意力機制，每一個突破都是概念上的跳躍。2020 年到 2025 年是「規模時代」，核心想法已經確定（Transformer + 自回歸預訓練），剩下的就是把模型做大、資料做多、算力堆上去。Scaling Laws 論文就是這兩個時代之間的分水嶺。它讓「做大」從一種直覺變成了一張可執行的路線圖，也讓矽谷有了砸千億美元的數學底氣。

但 Sutskever 把 Scaling Laws 放進清單，我認為還有一層更深的意思。回到本系列的核心主題：壓縮即理解。如果更大的模型表現更好，而模型的任務本質上是壓縮資料（預測下一個 token 等於壓縮），那 Scaling Laws 說的其實是：更大的壓縮器能找到更深層的規律。一個 15 億參數的模型能學到語法和基本語義，一個 1,750 億參數的模型能學到推理和世界知識，一個萬億參數的模型也許能觸及更抽象的結構。規模不是目的，規模是通往更深層壓縮的手段。

兩篇看似離題的技術論文

清單的第 12 項和第 13 項，乍看之下跟「規模」這個主題搭不上邊。一篇是關於影像分割的卷積技巧，另一篇是把神經網路應用到化學分子上。但如果你帶著「壓縮與效率」的眼鏡去看，它們各自說了一件有意思的事。

膨脹卷積：不變大也能看更遠

Fisher Yu 和 Vladlen Koltun 在 2015 年發表的〈Multi-Scale Context Aggregation by Dilated Convolutions〉（ICLR 2016），提出了一個簡潔的想法：如果你想讓卷積核「看到」更大範圍的輸入，傳統做法是加大卷積核或堆疊更多層。但這兩條路都有代價：不是增加參數量，就是降低解析度。膨脹卷積的做法是在卷積核的取樣點之間插入空隙。一個 3×3 的卷積核，膨脹率為 2 的時候，取樣範圍等同於 5×5，膨脹率為 4 的時候等同於 9×9，但實際參數量始終是 3×3 的 9 個參數。

這個技巧在語義分割任務中特別有用。語義分割要求模型對圖片中每一個像素做分類：這棵樹、那條路、這個人。所以你既需要大範圍的上下文（知道整個場景是什麼），又需要保持像素級的精確度。傳統的池化（pooling）操作可以擴大感受野，但會犧牲解析度。膨脹卷積兩者兼得：感受野指數增長，但解析度和參數量都不變。

Fisher Yu 當時在普林斯頓大學攻讀博士，後來到了 ETH Zurich 擔任教授，專注於電腦視覺和自動駕駛。Koltun 則先後在 Intel 擔任視覺計算首席科學家，2021 年轉到 Apple 擔任傑出科學家。這篇論文的影響遠超語義分割：膨脹卷積後來被大量用在 WaveNet（Google 的語音合成模型）和各種時序模型中，因為同樣的邏輯適用於任何需要「用少量參數捕捉長距離依賴」的場景。

Sutskever 選這篇論文，我猜是因為它示範了「壓縮效率」的另一面。GPipe 和 Scaling Laws 告訴你「大就是好」，膨脹卷積則補上了另一半故事：在單一元件的層面，用更少的參數捕捉更多的結構，同樣是一種力量。這跟「做大」不矛盾，反而是「做大」的前提。如果每個元件都浪費參數，你堆再多層也只是在浪費算力。規模和效率不是對立的，它們是同一枚硬幣的兩面。

訊息傳遞神經網路：當 AI 走進分子世界

清單第 13 項是 Google Brain 的 Justin Gilmer、Samuel S. Schoenholz、Patrick F. Riley、Oriol Vinyals 和 George E. Dahl 在 2017 年發表的〈Neural Message Passing for Quantum Chemistry〉（ICML 2017）。這篇論文做了兩件事：首先，它把當時已經存在的多種圖神經網路（Graph Neural Network）方法，包括 GCN、Gated Graph Neural Networks、Interaction Networks 等，統一成一個叫做 MPNN（Message Passing Neural Network）的框架；其次，它把這個框架應用到化學分子的性質預測上，在 QM9 資料集上取得了超越傳統方法的結果。

圖神經網路的直覺很好懂。分子就是一個圖：原子是節點，化學鍵是邊。傳統的機器學習方法要先把分子「壓平」成一個固定長度的特徵向量（所謂的分子指紋），壓的過程中，三維結構資訊就丟了。MPNN 的做法是讓節點之間直接「傳遞訊息」：每個原子把自己的狀態傳給相鄰的原子，收到訊息的原子更新自己的狀態，這個過程重複好幾輪之後，每個原子的表徵就包含了它周圍環境的資訊。最後，一個「讀出」函數把所有原子的表徵彙總成整個分子的表徵。

這篇論文之後，MPNN 框架成為化學和生物領域 AI 應用的標準詞彙。後續的 D-MPNN（用在 Chemprop 藥物篩選工具中）、Attentive FP 等模型都直接建構在這個框架上。更廣泛地說，MPNN 的影響延伸到了材料科學（催化劑設計）、蛋白質結構預測（AlphaFold 的內部也使用了類似的訊息傳遞機制）和逆合成分析。

Sutskever 把一篇化學論文放進 AI 閱讀清單，意思再清楚不過：AI 的壓縮能力不只適用於語言和影像。分子是一種結構，蛋白質是一種結構，材料的晶體排列是一種結構，社交網路是一種結構。只要資料有結構，就可以壓縮。只要可以壓縮，深度學習就有用武之地。這篇論文示範的是「壓縮即理解」這個哲學的跨領域泛化能力。

我的觀察：規模是手段，不是目的

寫到這裡，一個問題自然浮現：如果 Sutskever 是 AI 領域最堅定的規模信仰者，為什麼他在 2024 年離開了 OpenAI，創辦了一家叫 SSI（Safe Superintelligence Inc.）的公司？

線索就在這四篇論文的排列中。GPipe 解決了「怎麼練更大」，Scaling Laws 證明了「更大真的更好」，但膨脹卷積和 MPNN 說的是另一件事：重要的不是大，重要的是每一個參數能捕捉多少結構。規模從來不是目的，它是通往更深層壓縮的手段。當預訓練資料接近有限的天花板，當冪律曲線開始彎折，你需要的不是繼續堆 GPU，而是找到新的壓縮方式。

Sutskever 在 2025 年底接受 Dwarkesh Patel 的訪談時，把他自己的生涯分成了「研究時代」和「規模時代」，然後暗示第三個時代即將到來。他沒有明說那是什麼，但從他一路以來的信念推測，那可能是某種超越現有 Transformer + 自回歸框架的新壓縮範式。他離開 OpenAI，也許正是因為他認為繼續在現有框架上堆規模已經接近盡頭，而找到下一個範式需要一種不同的研究環境。

回到清單本身。這四篇論文構成了一個完整的論證。GPipe 讓你練得出大模型，Scaling Laws 告訴你大模型確實更好，膨脹卷積提醒你每個參數都該被用好，MPNN 證明壓縮的邏輯可以推到語言和影像之外。四篇合在一起，Sutskever 的訊息是：規模很重要，但規模服務的是壓縮。更大的模型之所以更好，是因為它有更多的參數可以用來發現更深層的結構。搞懂了這一點，你就不會盲目崇拜大，也不會天真地相信小而美能解決一切。你會去找那個讓每一個參數都發揮最大壓縮效率的甜蜜點。

下一篇，我們要處理清單中最「實用主義」的一組論文：從變分自編碼器到 Variational Lossy Autoencoder，Sutskever 清單如何看待「有損壓縮」與「生成」之間的深層連結。

← 上一篇：記憶、推理、關係理解 → 下一篇：有損壓縮也是一種智慧 📋 回到系列目錄：那份消失的 Email