AI 推論的大分裂:為什麼 Agent 時代不需要最快的晶片
知名科技分析師 Ben Thompson 提出 AI 推論正在分裂為兩種截然不同的工作負載:人等答案的「回答式推論」追求速度,Agent 自主執行的「代理式推論」追求記憶體容量。這個區分將根本性改變晶片架構的競爭格局。


本文整理自 Stratechery 2026 年 5 月發布的分析文章。
我們一直把推論當成一件事,但它其實是兩件事
過去幾年,AI 產業習慣把運算工作分成「訓練」和「推論」兩大塊。訓練是讓模型學會東西,推論是讓模型回答問題。這個分法簡潔明瞭,也主導了整個晶片產業的投資邏輯。但知名科技分析師 Ben Thompson(Stratechery 創辦人)在 Cerebras 上市前夕提出了一個更細緻的觀察:推論本身正在分裂成兩種完全不同的工作負載,它們對硬體的需求幾乎是相反的。
Thompson 把推論分成兩類。第一類叫「回答式推論」(answer inference),就是現在最常見的場景:你問 ChatGPT 一個問題,等它回答。這裡最重要的是速度,因為有一個人類在螢幕前等著。第二類叫「代理式推論」(agentic inference),是 Agent 在背景自主執行任務,可能跑一整夜都沒人盯著。這裡最重要的不是速度,而是能記住多少東西、能處理多大的脈絡。
這個區分聽起來簡單,但想一下它的後果。如果未來 AI 的主要工作負載是 Agent 在背景跑任務,而不是人類在前台等答案,那整個晶片產業花了十年優化的「低延遲」優勢,可能在最大的市場裡派不上用場。Thompson 直言,代理式推論將成為規模最大的市場,因為它不受人類數量或時間的限制,而是隨運算能力本身無限擴張。
GPU 怎麼變成 AI 的萬能瑞士刀
要理解這個分裂為什麼重要,得先搞清楚 GPU 為什麼能稱霸 AI 產業這麼久。答案不是因為 GPU 在某一件事上做到最好,而是因為它在每一件事上都「夠好」。
訓練大型語言模型需要數萬張 GPU 協同運算,每一步的計算結果都要在所有 GPU 之間同步。這要求極高的晶片間通訊頻寬,而 NVIDIA 在這方面的投資無人能及。推論的需求則不太一樣:預填充(prefill)階段需要大量平行計算,解碼(decode)階段需要高頻寬記憶體來讀取 KV 快取和模型權重。這兩個階段交替進行,每產生一個 token 都要把 KV 快取和模型權重完整讀一次。GPU 恰好能滿足這三種需求:高運算力、大容量 HBM、高速網路互連。
這就是為什麼 SpaceX 把 Colossus One 資料中心超過 22 萬張 NVIDIA GPU 租給 Anthropic 時,完全不需要改裝。同一批硬體原本用來訓練 xAI 的模型,現在直接拿來跑 Claude 的推論服務。訓練和推論都能跑,就像一把瑞士刀,每個功能或許都不是最鋒利的,但你只需要帶一把就夠了。這種靈活性是 NVIDIA 最深的護城河,也是到目前為止每家 AI 公司都選擇 GPU 的根本原因。
晶圓級晶片:速度怪獸的天花板
Cerebras 走了一條完全不同的路。一般晶片受限於光刻機的「光罩極限」,單顆晶片最大面積大約只有 26 乘 33 毫米。要做更大的處理器,就得用晶片間互連把多顆晶片串在一起,速度自然會打折。Cerebras 的創新在於,它發明了跨越晶圓切割線(scribe lines)布線的技術,直接把整片 300 毫米晶圓做成一顆巨大的單一晶片。
這帶來了驚人的數字。Cerebras 最新的 WSE3 晶片擁有 44 GB 的片上 SRAM,記憶體頻寬高達每秒 21 TB。對照 NVIDIA H100 的 80 GB HBM 和每秒 3.35 TB 頻寬。換句話說,WSE3 的記憶體容量只有 H100 的一半多一點,但記憶體頻寬是 H100 的 6,000 倍。在模型完全放得進片上記憶體的情況下,Cerebras 產生 token 的速度是 GPU 無法企及的。
但這裡有一個根本限制:44 GB 的 SRAM 放不下越來越大的模型和 KV 快取。一旦需要的記憶體超過片上容量,就得外接記憶體,Cerebras 的速度優勢瞬間消失。加上整片晶圓做成一顆晶片的良率問題,成本非常高昂。Cerebras 目前主打的賣點是「讓寫程式的推理 token 跑更快」,但 Thompson 認為這是一個暫時性的應用場景,因為寫程式的 Agent 終究會完全脫離人類的即時監督。
當 Agent 不再等人:記憶體比速度重要
Thompson 提出的核心論點是:Agent 的真正威力不在於它能幫人做事,而在於它能在完全沒有人類參與的情況下自主完成工作。一旦人類退出迴圈,整個硬體需求的優先順序就被翻轉了。
想像一個 Agent 在半夜自動執行一連串複雜任務:它需要維護對話脈絡、存取資料庫、管理工具呼叫的狀態、保存中間結果。這些都需要大量記憶體,但不需要毫秒級的 token 生成速度。Agent 不會因為等了三秒就不耐煩,它只在乎能不能把任務做完。在這個場景下,最重要的是記憶體的容量和層級架構:一部分活在 KV 快取裡,一部分活在主記憶體或 SSD,更多東西存在資料庫、日誌、嵌入向量儲存裡。GPU 的高速運算反而變成了過度配備。
這意味著什麼?如果延遲不是首要考量,那傳統 DRAM 可能比昂貴的 HBM 更划算。如果整個系統大部分時間都在等記憶體存取,那晶片本身也不需要跑在最先進的製程。Thompson 觀察到,未來代理式推論的架構會逐步「拆解」GPU,把預填充、解碼、工具呼叫分離開來,用更便宜的記憶體和「夠快」的運算力組合起來。NVIDIA 顯然也意識到了這個趨勢,推出了 Dynamo 推論框架和獨立的記憶體、CPU 機架,試圖讓昂貴的 GPU 不要閒置。但成本和簡潔性的誘惑,終究會讓超大規模雲端業者認真考慮其他方案。
摩爾定律不是死了,是變得不重要了
黃仁勳(Jensen Huang)經常說摩爾定律已死,意思是未來的效能提升要靠系統層級的創新,而不是靠電晶體繼續縮小。Thompson 認為代理式推論把這個邏輯推得更遠:它暗示我們終將發現,現有的運算能力其實已經「夠用」了。
這不是說訓練不需要更強的晶片。前沿模型的訓練仍然需要 NVIDIA 目前的架構優勢:高速運算、大量 HBM、高速網路。但訓練畢竟是一次性的投入,模型訓練完就開始服務千百萬個 Agent。在推論端,尤其是佔最大比例的代理式推論,競爭的焦點將從「最快的晶片」轉向「最聰明的記憶體管理」。
Thompson 還點出了一個有趣的地緣政治面向:中國雖然拿不到最先進的 GPU,但發展代理式推論所需的一切它都有。夠快(但不是最快)的 GPU、夠快的 CPU、DRAM、硬碟,這些都不在出口管制清單上。如果代理式推論才是未來最大的市場,那晶片禁令的戰略意義可能比想像中小。對太空資料中心也是好消息:不需要最先進製程的晶片更能抵抗宇宙輻射、功耗更低、可靠性更高,正好適合無法維修的衛星環境。
說清楚:這不是一個「NVIDIA 要完蛋」的故事。訓練和回答式推論仍然是 NVIDIA 的天下。但這確實是一個「未來最大的新市場可能不需要最貴的硬體」的故事。當 Agent 從人類的助手演化為自主運作的數位勞動力,速度不再是衡量一切的標準,記憶體才是新的戰場。