AI 技術前沿

Jeff Dean 的硬體經濟學：搬一個權重比算一次乘法貴 1,000 倍

Google 首席 AI 科學家 Jeff Dean 從能量物理學出發，解釋為什麼 AI 推論的真正瓶頸是資料搬運而非運算本身，以及 TPU 共同設計、低精度運算和級聯檢索架構如何回應這個根本挑戰。本文為系列文第二篇。

2026 年 2 月 20 日 · 來源： Latent Space

本文整理自 Latent Space 2026 年 2 月播出的單集。本文為系列文第二篇，另見蒸餾策略篇與Google Brain 起源篇。

{{< apple-podcast "tw/podcast/owning-the-ai-pareto-frontier-jeff-dean/id1674008350?i=1000749498954" >}}

多數 AI 工程師知道批次處理（batching）能提升吞吐量，但很少有人能用物理學的語言解釋為什麼。Google 首席 AI 科學家傑夫．迪恩（Jeff Dean）在 Latent Space 的訪談中給出了一個罕見的能量分析角度：在 AI 加速器上執行一次矩陣乘法大約消耗 1 皮焦耳（picojoule），但把模型權重從晶片上的 SRAM 搬到乘法單元，卻需要大約 1,000 皮焦耳。這個 1,000 倍的能量落差，決定了 AI 硬體設計的幾乎所有重要決策。

1,000 倍的能量鴻溝：為什麼批次處理是物理必然

主持人 swyx 聽到迪恩用能量而非吞吐量來分析批次處理時，反應很直接：「我從來沒聽過從能量角度分析 batching。」這不是意外。業界習慣用每秒 token 數、每美元成本這類高階指標來評估推論效率，但迪恩認為，要真正理解 AI 系統的設計邏輯，必須回到最底層的物理約束。

算法很簡單：假設你搬了一個模型參數到乘法單元，花了 1,000 皮焦耳。如果批次大小是 1，你只用這個參數做了一次乘法，花 1 皮焦耳。那你的能量效率就是 1,001 皮焦耳做了 1 皮焦耳的「有用功」，效率不到千分之一。但如果批次大小是 256，你用同一個參數做了 256 次乘法，能量效率立刻提升到大約 20%。搬運成本被 256 次運算攤提掉了。

所以批次大小為 1 在理論上延遲最低，在實務上卻極其浪費。迪恩的說法很直白：搬了一個參數花了 1,000 皮焦耳，結果只做了一次 1 皮焦耳的乘法，那真的很不划算。這個物理約束不會因為晶片製程進步而消失，因為資料搬運和運算的能量比在可預見的未來都不會根本改變。無論是 Google 的 TPU、NVIDIA 的 GPU 還是其他架構，所有 AI 加速器都把批次處理當作基本設計前提，原因就在這裡。

迪恩進一步指出，投機解碼（speculative decoding）也能從這個框架理解。投機解碼讓模型一次預測八個 token，然後驗證其中五、六個是正確的，等於把有效批次大小提升了五到六倍。從能量的角度看，這意味著你每搬一次權重，就多做了五到六倍的有用運算。

TPU 共同設計：在快速變化的領域預測 2 到 6 年後的需求

理解了能量約束之後，下一個問題是：硬體設計者能做什麼？迪恩談到 Google 在 TPU 設計上的一個獨特優勢：共同設計（co-design）。TPU 晶片架構團隊和 ML 研究人員之間有密切的協作，因為硬體設計需要預測未來。

一款 TPU 從開始設計到進入資料中心大約需要兩年，而這款晶片必須在之後的三到五年內持續有用。換句話說，TPU 設計者今天做的決策，必須預測兩到六年後的 ML 工作負載會長什麼樣子。在 AI 這個每半年就有重大突破的領域，六年的預測期聽起來幾乎是不可能的任務。

迪恩解釋了 Google 處理這個問題的策略。對於那些不確定但潛力巨大的新功能，如果它們的晶片面積成本很小，團隊會「投機」地加進去。如果押對了，可能帶來十倍的加速；如果押錯了，損失只是一小塊晶片面積。但對於需要大幅改動晶片架構的變更，團隊會先進行大量的 ML 實驗來驗證方向是否正確，確認後才會把它納入設計。

這種共同設計不是單向的。模型架構也會反過來適應可用的硬體。如果下一代 TPU 支援更低精度的運算，研究人員可能會提前在當前世代就開始用低精度訓練模型，即使當前硬體還不能完全發揮低精度的優勢。這樣當新硬體上線時，模型已經準備好了。迪恩形容這是一個雙向的適應過程：硬體為模型的未來鋪路，模型也為硬體的到來做準備。

TPU 的物理結構也值得一提。迪恩提到 TPU 使用 2D 或 3D 網格拓撲，晶片之間有高頻寬互聯，每顆晶片都連接了 HBM（高頻寬記憶體）。對於較小的模型，可以把模型參數分散到 16 或 64 顆晶片的 SRAM 上。如果整個模型都能放進 SRAM，就能大幅降低延遲，因為你繞過了 HBM 到 SRAM 的搬運成本。這個技巧的本質還是回到那個 1,000 倍的能量鴻溝：能從更近的記憶體讀取資料，就能省下更多搬運能量。

低精度：每減少一個 bit 就是實打實的能量節省

迪恩對極低精度運算非常看好。原理很直覺：能量成本和搬運的位元數直接相關，降低精度就是減少每次搬運的位元數，等於直接省下能量。

但低精度的挑戰在於保持模型品質。迪恩指出，業界已經找到了一個有效的折衷方案：使用極低位元精度的權重（例如 4-bit 或更低），但為每一組權重搭配一個較高精度的縮放向量（scaling vector）。這些縮放向量適用於一整群權重，所以它們的額外成本被大量攤提。結果是，你得到了極低精度帶來的能量節省，同時透過縮放向量保住了模型品質。

這對推論效率的影響非常直接。把權重從 16-bit 降到 4-bit，搬運能量就降為四分之一。再加上縮放向量的少量開銷，整體能量效率可能提升三到四倍。迪恩認為，低精度運算離極限還有很大距離，未來還有大量的效率空間可以挖掘。

兆級 token 的幻覺：級聯檢索如何讓模型「看見」全網路

迪恩對長上下文的願景，比業界目前的討論激進得多。Google 目前在 200 萬 token 的上下文長度上領先，但他認為這還遠遠不夠。他的理想目標是讓模型產生一種「幻覺」：它能注意到數兆個 token，包括整個網路、YouTube 上所有影片的像素，以及使用者個人的電子郵件、照片、文件和機票。

但二次方注意力機制無法擴展到數兆 token，這是物理限制。一百萬 token 已經接近現有方法的極限，十億 token 更不用說。所以必須換一種思路。迪恩的答案是級聯檢索（cascaded retrieval），而且他直接拿 Google 搜尋的架構來類比。

Google 搜尋的索引包含數兆個網頁，但使用者最終只看到 10 個結果。中間的過程是多階段的漏斗：先用極輕量的方法從數兆文件中篩出大約三萬個相關文件，再用更精密的模型從三萬個中挑出大約 117 個，最後由最強的模型處理這 117 個文件來生成答案。每一個階段都使用更強但也更慢的模型，精度遞增，規模遞減。

迪恩認為，LLM 系統最終也會採用類似的架構。差別在於，搜尋引擎的漏斗是為人類設計的，最終產出 10 個可點擊的連結；而 LLM 的漏斗會為模型自己設計，最終產出的是一組精選的上下文，讓最強的模型在這個上下文中進行推理。使用者不會知道（也不需要知道）模型背後經歷了幾個階段的檢索和篩選，他們只會感覺模型好像真的「讀」過了網路上所有相關的資訊。

10,000 token/秒：當深度推理變成日常

訪談尾聲，迪恩拋出了一個大膽的預測：未來的專用硬體將把延遲壓低 20 到 50 倍，達到每秒 10,000 個 token 的生成速度。主持人追問「10,000 token/秒真的有意義嗎？」迪恩的回答很堅定：「絕對有。」

他的推理是這樣的：以目前大約每秒 100 個 token 的速度，深度思考（deep think）推理模式動輒需要數分鐘才能完成，成本高昂，延遲也讓人受不了。但如果速度提升到每秒 10,000 個 token，同樣的推理過程幾秒就能跑完。你可以做更多的平行推演（parallel rollouts），生成更多程式碼並用鏈式推理來驗證正確性。

主持人 swyx 的反應點出了一個有趣的觀察：在每秒 10,000 個 token 的速度下，人類已經無法逐行閱讀程式碼了。模型會生成 1,000 個 token 的程式碼，背後有 9,000 個 token 的推理過程支撐。迪恩同意這個觀察，並認為這樣產出的程式碼品質反而更高，因為更多的推理 token 意味著更周全的考量。

把這個預測和前面的能量分析結合來看，每秒 10,000 個 token 需要在能量效率上取得數量級的突破。低精度運算、更好的 SRAM 利用、投機解碼、級聯檢索，這些技術方向都在為同一個目標服務：讓每皮焦耳的能量做更多的有用功。迪恩的整個技術世界觀可以用一句話概括：AI 系統的終極瓶頸不是運算，而是資料搬運。誰能在搬運效率上做得最好，誰就能在成本和延遲上取得決定性的優勢。