Jeff Dean 的硬體經濟學:搬一個權重比算一次乘法貴 1,000 倍
Google 首席 AI 科學家 Jeff Dean 從能量物理學出發,解釋為什麼 AI 推論的真正瓶頸是資料搬運而非運算本身,以及 TPU 共同設計、低精度運算和級聯檢索架構如何回應這個根本挑戰。本文為系列文第二篇。

本文整理自 Latent Space 2026 年 2 月播出的單集。本文為系列文第二篇,另見蒸餾策略篇與Google Brain 起源篇。
{{< youtube F_1oDPWxpFQ >}}
{{< spotify "episode/57STph5rgiPiagKvfR1zNH" >}}
{{< apple-podcast "tw/podcast/owning-the-ai-pareto-frontier-jeff-dean/id1674008350?i=1000749498954" >}}
多數 AI 工程師知道批次處理(batching)能提升吞吐量,但很少有人能用物理學的語言解釋為什麼。Google 首席 AI 科學家傑夫.迪恩(Jeff Dean)在 Latent Space 的訪談中給出了一個罕見的能量分析角度:在 AI 加速器上執行一次矩陣乘法大約消耗 1 皮焦耳(picojoule),但把模型權重從晶片上的 SRAM 搬到乘法單元,卻需要大約 1,000 皮焦耳。這個 1,000 倍的能量落差,決定了 AI 硬體設計的幾乎所有重要決策。
1,000 倍的能量鴻溝:為什麼批次處理是物理必然
主持人 swyx 聽到迪恩用能量而非吞吐量來分析批次處理時,反應很直接:「我從來沒聽過從能量角度分析 batching。」這不是意外。業界習慣用每秒 token 數、每美元成本這類高階指標來評估推論效率,但迪恩認為,要真正理解 AI 系統的設計邏輯,必須回到最底層的物理約束。
算法很簡單:假設你搬了一個模型參數到乘法單元,花了 1,000 皮焦耳。如果批次大小是 1,你只用這個參數做了一次乘法,花 1 皮焦耳。那你的能量效率就是 1,001 皮焦耳做了 1 皮焦耳的「有用功」,效率不到千分之一。但如果批次大小是 256,你用同一個參數做了 256 次乘法,能量效率立刻提升到大約 20%。搬運成本被 256 次運算攤提掉了。
所以批次大小為 1 在理論上延遲最低,在實務上卻極其浪費。迪恩的說法很直白:搬了一個參數花了 1,000 皮焦耳,結果只做了一次 1 皮焦耳的乘法,那真的很不划算。這個物理約束不會因為晶片製程進步而消失,因為資料搬運和運算的能量比在可預見的未來都不會根本改變。無論是 Google 的 TPU、NVIDIA 的 GPU 還是其他架構,所有 AI 加速器都把批次處理當作基本設計前提,原因就在這裡。
迪恩進一步指出,投機解碼(speculative decoding)也能從這個框架理解。投機解碼讓模型一次預測八個 token,然後驗證其中五、六個是正確的,等於把有效批次大小提升了五到六倍。從能量的角度看,這意味著你每搬一次權重,就多做了五到六倍的有用運算。
TPU 共同設計:在快速變化的領域預測 2 到 6 年後的需求
理解了能量約束之後,下一個問題是:硬體設計者能做什麼?迪恩談到 Google 在 TPU 設計上的一個獨特優勢:共同設計(co-design)。TPU 晶片架構團隊和 ML 研究人員之間有密切的協作,因為硬體設計需要預測未來。
一款 TPU 從開始設計到進入資料中心大約需要兩年,而這款晶片必須在之後的三到五年內持續有用。換句話說,TPU 設計者今天做的決策,必須預測兩到六年後的 ML 工作負載會長什麼樣子。在 AI 這個每半年就有重大突破的領域,六年的預測期聽起來幾乎是不可能的任務。
迪恩解釋了 Google 處理這個問題的策略。對於那些不確定但潛力巨大的新功能,如果它們的晶片面積成本很小,團隊會「投機」地加進去。如果押對了,可能帶來十倍的加速;如果押錯了,損失只是一小塊晶片面積。但對於需要大幅改動晶片架構的變更,團隊會先進行大量的 ML 實驗來驗證方向是否正確,確認後才會把它納入設計。
這種共同設計不是單向的。模型架構也會反過來適應可用的硬體。如果下一代 TPU 支援更低精度的運算,研究人員可能會提前在當前世代就開始用低精度訓練模型,即使當前硬體還不能完全發揮低精度的優勢。這樣當新硬體上線時,模型已經準備好了。迪恩形容這是一個雙向的適應過程:硬體為模型的未來鋪路,模型也為硬體的到來做準備。
TPU 的物理結構也值得一提。迪恩提到 TPU 使用 2D 或 3D 網格拓撲,晶片之間有高頻寬互聯,每顆晶片都連接了 HBM(高頻寬記憶體)。對於較小的模型,可以把模型參數分散到 16 或 64 顆晶片的 SRAM 上。如果整個模型都能放進 SRAM,就能大幅降低延遲,因為你繞過了 HBM 到 SRAM 的搬運成本。這個技巧的本質還是回到那個 1,000 倍的能量鴻溝:能從更近的記憶體讀取資料,就能省下更多搬運能量。
低精度:每減少一個 bit 就是實打實的能量節省
迪恩對極低精度運算非常看好。原理很直覺:能量成本和搬運的位元數直接相關,降低精度就是減少每次搬運的位元數,等於直接省下能量。
但低精度的挑戰在於保持模型品質。迪恩指出,業界已經找到了一個有效的折衷方案:使用極低位元精度的權重(例如 4-bit 或更低),但為每一組權重搭配一個較高精度的縮放向量(scaling vector)。這些縮放向量適用於一整群權重,所以它們的額外成本被大量攤提。結果是,你得到了極低精度帶來的能量節省,同時透過縮放向量保住了模型品質。
這對推論效率的影響非常直接。把權重從 16-bit 降到 4-bit,搬運能量就降為四分之一。再加上縮放向量的少量開銷,整體能量效率可能提升三到四倍。迪恩認為,低精度運算離極限還有很大距離,未來還有大量的效率空間可以挖掘。
兆級 token 的幻覺:級聯檢索如何讓模型「看見」全網路
迪恩對長上下文的願景,比業界目前的討論激進得多。Google 目前在 200 萬 token 的上下文長度上領先,但他認為這還遠遠不夠。他的理想目標是讓模型產生一種「幻覺」:它能注意到數兆個 token,包括整個網路、YouTube 上所有影片的像素,以及使用者個人的電子郵件、照片、文件和機票。
但二次方注意力機制無法擴展到數兆 token,這是物理限制。一百萬 token 已經接近現有方法的極限,十億 token 更不用說。所以必須換一種思路。迪恩的答案是級聯檢索(cascaded retrieval),而且他直接拿 Google 搜尋的架構來類比。
Google 搜尋的索引包含數兆個網頁,但使用者最終只看到 10 個結果。中間的過程是多階段的漏斗:先用極輕量的方法從數兆文件中篩出大約三萬個相關文件,再用更精密的模型從三萬個中挑出大約 117 個,最後由最強的模型處理這 117 個文件來生成答案。每一個階段都使用更強但也更慢的模型,精度遞增,規模遞減。
迪恩認為,LLM 系統最終也會採用類似的架構。差別在於,搜尋引擎的漏斗是為人類設計的,最終產出 10 個可點擊的連結;而 LLM 的漏斗會為模型自己設計,最終產出的是一組精選的上下文,讓最強的模型在這個上下文中進行推理。使用者不會知道(也不需要知道)模型背後經歷了幾個階段的檢索和篩選,他們只會感覺模型好像真的「讀」過了網路上所有相關的資訊。
10,000 token/秒:當深度推理變成日常
訪談尾聲,迪恩拋出了一個大膽的預測:未來的專用硬體將把延遲壓低 20 到 50 倍,達到每秒 10,000 個 token 的生成速度。主持人追問「10,000 token/秒真的有意義嗎?」迪恩的回答很堅定:「絕對有。」
他的推理是這樣的:以目前大約每秒 100 個 token 的速度,深度思考(deep think)推理模式動輒需要數分鐘才能完成,成本高昂,延遲也讓人受不了。但如果速度提升到每秒 10,000 個 token,同樣的推理過程幾秒就能跑完。你可以做更多的平行推演(parallel rollouts),生成更多程式碼並用鏈式推理來驗證正確性。
主持人 swyx 的反應點出了一個有趣的觀察:在每秒 10,000 個 token 的速度下,人類已經無法逐行閱讀程式碼了。模型會生成 1,000 個 token 的程式碼,背後有 9,000 個 token 的推理過程支撐。迪恩同意這個觀察,並認為這樣產出的程式碼品質反而更高,因為更多的推理 token 意味著更周全的考量。
把這個預測和前面的能量分析結合來看,每秒 10,000 個 token 需要在能量效率上取得數量級的突破。低精度運算、更好的 SRAM 利用、投機解碼、級聯檢索,這些技術方向都在為同一個目標服務:讓每皮焦耳的能量做更多的有用功。迪恩的整個技術世界觀可以用一句話概括:AI 系統的終極瓶頸不是運算,而是資料搬運。誰能在搬運效率上做得最好,誰就能在成本和延遲上取得決定性的優勢。