AI 技術前沿

AI 推論的大分裂：為什麼 Agent 時代不需要最快的晶片

知名科技分析師 Ben Thompson 提出 AI 推論正在分裂為兩種截然不同的工作負載：人等答案的「回答式推論」追求速度，Agent 自主執行的「代理式推論」追求記憶體容量。這個區分將根本性改變晶片架構的競爭格局。

2026 年 5 月 17 日 · 來源： Stratechery

封面圖

本文整理自 Stratechery 2026 年 5 月發布的分析文章。

我們一直把推論當成一件事，但它其實是兩件事

過去幾年，AI 產業習慣把運算工作分成「訓練」和「推論」兩大塊。訓練是讓模型學會東西，推論是讓模型回答問題。這個分法簡潔明瞭，也主導了整個晶片產業的投資邏輯。但知名科技分析師 Ben Thompson（Stratechery 創辦人）在 Cerebras 上市前夕提出了一個更細緻的觀察：推論本身正在分裂成兩種完全不同的工作負載，它們對硬體的需求幾乎是相反的。

Thompson 把推論分成兩類。第一類叫「回答式推論」（answer inference），就是現在最常見的場景：你問 ChatGPT 一個問題，等它回答。這裡最重要的是速度，因為有一個人類在螢幕前等著。第二類叫「代理式推論」（agentic inference），是 Agent 在背景自主執行任務，可能跑一整夜都沒人盯著。這裡最重要的不是速度，而是能記住多少東西、能處理多大的脈絡。

這個區分聽起來簡單，但想一下它的後果。如果未來 AI 的主要工作負載是 Agent 在背景跑任務，而不是人類在前台等答案，那整個晶片產業花了十年優化的「低延遲」優勢，可能在最大的市場裡派不上用場。Thompson 直言，代理式推論將成為規模最大的市場，因為它不受人類數量或時間的限制，而是隨運算能力本身無限擴張。

GPU 怎麼變成 AI 的萬能瑞士刀

要理解這個分裂為什麼重要，得先搞清楚 GPU 為什麼能稱霸 AI 產業這麼久。答案不是因為 GPU 在某一件事上做到最好，而是因為它在每一件事上都「夠好」。

訓練大型語言模型需要數萬張 GPU 協同運算，每一步的計算結果都要在所有 GPU 之間同步。這要求極高的晶片間通訊頻寬，而 NVIDIA 在這方面的投資無人能及。推論的需求則不太一樣：預填充（prefill）階段需要大量平行計算，解碼（decode）階段需要高頻寬記憶體來讀取 KV 快取和模型權重。這兩個階段交替進行，每產生一個 token 都要把 KV 快取和模型權重完整讀一次。GPU 恰好能滿足這三種需求：高運算力、大容量 HBM、高速網路互連。

這就是為什麼 SpaceX 把 Colossus One 資料中心超過 22 萬張 NVIDIA GPU 租給 Anthropic 時，完全不需要改裝。同一批硬體原本用來訓練 xAI 的模型，現在直接拿來跑 Claude 的推論服務。訓練和推論都能跑，就像一把瑞士刀，每個功能或許都不是最鋒利的，但你只需要帶一把就夠了。這種靈活性是 NVIDIA 最深的護城河，也是到目前為止每家 AI 公司都選擇 GPU 的根本原因。

晶圓級晶片：速度怪獸的天花板

Cerebras 走了一條完全不同的路。一般晶片受限於光刻機的「光罩極限」，單顆晶片最大面積大約只有 26 乘 33 毫米。要做更大的處理器，就得用晶片間互連把多顆晶片串在一起，速度自然會打折。Cerebras 的創新在於，它發明了跨越晶圓切割線（scribe lines）布線的技術，直接把整片 300 毫米晶圓做成一顆巨大的單一晶片。

這帶來了驚人的數字。Cerebras 最新的 WSE3 晶片擁有 44 GB 的片上 SRAM，記憶體頻寬高達每秒 21 TB。對照 NVIDIA H100 的 80 GB HBM 和每秒 3.35 TB 頻寬。換句話說，WSE3 的記憶體容量只有 H100 的一半多一點，但記憶體頻寬是 H100 的 6,000 倍。在模型完全放得進片上記憶體的情況下，Cerebras 產生 token 的速度是 GPU 無法企及的。

但這裡有一個根本限制：44 GB 的 SRAM 放不下越來越大的模型和 KV 快取。一旦需要的記憶體超過片上容量，就得外接記憶體，Cerebras 的速度優勢瞬間消失。加上整片晶圓做成一顆晶片的良率問題，成本非常高昂。Cerebras 目前主打的賣點是「讓寫程式的推理 token 跑更快」，但 Thompson 認為這是一個暫時性的應用場景，因為寫程式的 Agent 終究會完全脫離人類的即時監督。

當 Agent 不再等人：記憶體比速度重要

Thompson 提出的核心論點是：Agent 的真正威力不在於它能幫人做事，而在於它能在完全沒有人類參與的情況下自主完成工作。一旦人類退出迴圈，整個硬體需求的優先順序就被翻轉了。

想像一個 Agent 在半夜自動執行一連串複雜任務：它需要維護對話脈絡、存取資料庫、管理工具呼叫的狀態、保存中間結果。這些都需要大量記憶體，但不需要毫秒級的 token 生成速度。Agent 不會因為等了三秒就不耐煩，它只在乎能不能把任務做完。在這個場景下，最重要的是記憶體的容量和層級架構：一部分活在 KV 快取裡，一部分活在主記憶體或 SSD，更多東西存在資料庫、日誌、嵌入向量儲存裡。GPU 的高速運算反而變成了過度配備。

這意味著什麼？如果延遲不是首要考量，那傳統 DRAM 可能比昂貴的 HBM 更划算。如果整個系統大部分時間都在等記憶體存取，那晶片本身也不需要跑在最先進的製程。Thompson 觀察到，未來代理式推論的架構會逐步「拆解」GPU，把預填充、解碼、工具呼叫分離開來，用更便宜的記憶體和「夠快」的運算力組合起來。NVIDIA 顯然也意識到了這個趨勢，推出了 Dynamo 推論框架和獨立的記憶體、CPU 機架，試圖讓昂貴的 GPU 不要閒置。但成本和簡潔性的誘惑，終究會讓超大規模雲端業者認真考慮其他方案。

摩爾定律不是死了，是變得不重要了

黃仁勳（Jensen Huang）經常說摩爾定律已死，意思是未來的效能提升要靠系統層級的創新，而不是靠電晶體繼續縮小。Thompson 認為代理式推論把這個邏輯推得更遠：它暗示我們終將發現，現有的運算能力其實已經「夠用」了。

這不是說訓練不需要更強的晶片。前沿模型的訓練仍然需要 NVIDIA 目前的架構優勢：高速運算、大量 HBM、高速網路。但訓練畢竟是一次性的投入，模型訓練完就開始服務千百萬個 Agent。在推論端，尤其是佔最大比例的代理式推論，競爭的焦點將從「最快的晶片」轉向「最聰明的記憶體管理」。

Thompson 還點出了一個有趣的地緣政治面向：中國雖然拿不到最先進的 GPU，但發展代理式推論所需的一切它都有。夠快（但不是最快）的 GPU、夠快的 CPU、DRAM、硬碟，這些都不在出口管制清單上。如果代理式推論才是未來最大的市場，那晶片禁令的戰略意義可能比想像中小。對太空資料中心也是好消息：不需要最先進製程的晶片更能抵抗宇宙輻射、功耗更低、可靠性更高，正好適合無法維修的衛星環境。

說清楚：這不是一個「NVIDIA 要完蛋」的故事。訓練和回答式推論仍然是 NVIDIA 的天下。但這確實是一個「未來最大的新市場可能不需要最貴的硬體」的故事。當 Agent 從人類的助手演化為自主運作的數位勞動力，速度不再是衡量一切的標準，記憶體才是新的戰場。