AI 產業動態

Cerebras 創辦人反擊 Ben Thompson：速度無用論「大錯特錯」，CUDA 護城河已失守七成

Cerebras 創辦人費爾德曼在 IPO 週接受 Bloomberg 專訪，直接反駁 Ben Thompson「Agent 不需要速度」的論點，並提出具體數據指出 NVIDIA CUDA 護城河正在快速流失：三大前沿模型中只剩 OpenAI 的 GPT 還在 CUDA 上訓練。

2026 年 5 月 22 日 · 來源： Odd Lots (Bloomberg)

Cerebras 創辦人反擊 Ben Thompson：速度無用論「大錯特錯」，CUDA 護城河已失守七成

本文整理自 Bloomberg《Odd Lots》Podcast 2026 年 5 月播出的單集。

被點名的人開口了

五天前，我們寫了一篇文章討論 Stratechery 創辦人 Ben Thompson 對 Cerebras 上市的冷水分析：他認為 Cerebras 擅長的「快速回答」推論只是整個推論市場的一小塊，真正會無限擴張的 Agent 工作負載根本不需要那麼快。這個論點在科技圈引起廣泛討論。現在，被質疑的那方親自上場了。

Cerebras 創辦人暨執行長安德魯·費爾德曼（Andrew Feldman）在 IPO 週接受 Odd Lots 專訪時，沒有迴避這個質疑。他直接點名 Thompson，用了一個詞：「大錯特錯」（dead wrong）。這場訪談涵蓋了技術、供應鏈、地緣政治到個人哲學，但費爾德曼最犀利的火力集中在兩個點：速度在所有場景都很重要，以及 NVIDIA 的 CUDA 護城河正在快速崩塌。

「慢速搜尋的市場是零」

費爾德曼反駁 Thompson 的邏輯很直接。他先問了一個問題：慢速搜尋的市場有多大？零。撥接上網的市場呢？也是零。他的論點是，人類在任何情境下都不想等。不管是坐在螢幕前問 ChatGPT 問題，還是讓 Agent 在背景跑一整套自動化任務，速度帶來的複合優勢都是決定性的。如果你的競爭對手的 Agent 在 20 分鐘內完成了三到十倍的工作量，長期下來你根本沒有勝算。

這跟 Thompson 的分析形成了正面對撞。Thompson 把推論分成「回答式」和「代理式」兩種，認為後者不需要極致速度，只需要夠大的記憶體和夠便宜的成本。費爾德曼完全不買帳。在他看來，這種區分本身就有問題，因為速度在所有生產性工作中都是核心競爭力。一個單位的速度優勢會在每次迭代中累積：快三倍不是只快三倍，而是在同樣時間裡完成六倍、十倍的工作。寫程式、做研究、跑自動化任務，速度的複合效應無處不在。

他還拿出了一個很有說服力的市場數據來佐證。Anthropic 曾推出一個加速推論方案，速度是一般方案的兩倍，定價卻是六倍。結果呢？售罄，完全供不應求。而 Cerebras 的推論速度是那個加速方案的 15 倍。換句話說，市場已經用真金白銀證明了速度的價值，而且遠遠沒有被滿足。

費爾德曼接著拆解了 GPU 的 token 經濟學。GPU 在產生慢速 token 時確實划算，單位成本低。但一旦你試著推高速度，成本和功耗就會急劇攀升。他用了一個比喻：就像汽車在高速公路上加速時油耗急遽惡化。Cerebras 的晶片架構不一樣，它的快速 token 成本只是同速度 GPU 的一小部分，功耗也低得多。慢 token 的市場或許屬於 GPU，但快 token 的市場是 Cerebras 的主場。

CUDA 護城河正在崩塌

如果速度之爭還可以見仁見智，費爾德曼對 CUDA 護城河的分析就是直接拿數字說話了。CUDA 長期被視為 NVIDIA 最深的護城河：全世界的 AI 開發者都在 CUDA 上寫程式，遷移成本高到讓人卻步。但費爾德曼指出，這個敘事正在被事實推翻。

一年前，三大前沿模型實驗室全部在 CUDA 基礎上訓練模型。今天只剩一家。Google 的 Gemini 完全在自家 TPU 上訓練和部署，沒有任何 CUDA 依賴。Anthropic 的 Claude 在 AWS 的 Trainium 上訓練，部署時混用 Trainium、TPU 和 GPU。只有 OpenAI 的 GPT 還留在 CUDA 環境裡。費爾德曼數得很清楚：三家裡走了兩家，CUDA 在前沿模型訓練市場的市占率流失了大約 70%。

推論端的情況對 NVIDIA 更不利。費爾德曼直言，CUDA 在推論領域「完全沒有角色」。把一個模型從 GPU 搬到 Cerebras 上跑，只需要改十個按鍵，指向一個新的 API 端點就完成了。不需要重寫程式碼，不需要重新訓練，不需要任何軟體層的適配。這跟訓練階段需要深度整合 CUDA 工具鏈完全不同。如果推論真的是接下來最大的市場，那 CUDA 護城河恰好在最重要的戰場上形同虛設。

費爾德曼的立場當然不是中立的，他是 NVIDIA 的直接競爭對手，有明確的利益動機去唱衰 CUDA。但他提出的數據是可驗證的：Gemini 確實跑在 TPU 上，Claude 確實跑在 Trainium 上，這些不是意見而是事實。真正的問題在於，這個趨勢會不會擴散到更多客戶。如果連前沿實驗室都在脫離 CUDA，一般企業客戶的遷移意願只會更高，不會更低。

三大供應鏈瓶頸，全部閃避

費爾德曼對供應鏈的分析同樣具體。他指出，目前卡住整個 AI 晶片產業的有三大瓶頸：HBM 高頻寬記憶體（由三星、SK 海力士、美光三家壟斷，供貨極度緊張）、台積電的 CoWoS 先進封裝製程（NVIDIA 高度依賴），以及台積電最吃緊的 3 奈米產線。Cerebras 一個都不用。它不使用 HBM，而是在晶圓上直接塞滿快速的 SRAM 記憶體。它不需要 CoWoS 封裝，因為整片晶圓本身就是一顆晶片。它使用的是台積電 5 奈米製程，避開了 3 奈米的產能排擠。

這意味著，當 NVIDIA 和其他 GPU 廠商為了搶 HBM 產能和 CoWoS 封裝排隊等候時，Cerebras 完全不受影響。費爾德曼表示，到目前為止台積電都能提供 Cerebras 所需的全部晶圓產能。但他也坦承，真正卡住 Cerebras 和整個產業的瓶頸跟晶片無關：是有電力供應的資料中心建築。這個限制預計還會持續 15 到 18 個月。

他把這個矛盾描述得很生動：你花了十年發明一項 75 年來沒人做到的技術，寫了極其複雜的軟體，打造出比市場上所有產品快十幾倍的晶片。然後呢？你被建築物卡住了。這是 2026 年 AI 基礎建設的荒謬現實。矽的問題解決了，軟體的問題解決了，最後的瓶頸是鋼筋水泥和變電站。

不會只有一個贏家

費爾德曼對 AI 市場結構的預測也值得關注。他不認為會出現一個壟斷性的模型或平台，而是會像半導體產業一樣多元並存。x86 架構有 AMD 和 Intel 兩家，旁邊還有龐大的 ARM 生態系，再加上各種客製化矽晶片。AI 模型市場也會是類似的格局：OpenAI 會持續做出驚人的產品，競爭者會冒出來，開源也會是一個持久且重要的選項。

在開源 vs 閉源的辯論上，他的判斷很務實。閉源模型在能力上嚴格來說比開源好，但差距只有大約 3% 到 5%。開源模型便宜得多，因為使用者只需要付運算成本，不需要分攤訓練費用。他以在 Cerebras 雲端上運行的 Kimi K2（月之暗面推出的一兆參數開源模型）為例，說明開源的性價比優勢正在快速縮小跟閉源的品質差距。目前閉源陣營的 OpenAI 和 Anthropic 正在跟開源驅動的 Cursor、Cognition 激烈競爭，勝負還沒有定論。

回到那場跟 Ben Thompson 的辯論。Thompson 的觀點有他的道理：Agent 時代確實可能改變推論市場的需求結構。但費爾德曼的反駁也有說服力：在任何需要迭代和競爭的工作流中，速度都會是決定性因素。這場辯論短期內不會有結論，因為 Agent 的規模化部署才剛開始。但至少在 2026 年 5 月，市場已經用 Cerebras 高達 950 億美元的首日市值表明了立場。在 AI 推論這場仗裡，押注速度的人目前還是佔了上風。