Cerebras 創辦人反擊 Ben Thompson:速度無用論「大錯特錯」,CUDA 護城河已失守七成

Cerebras 創辦人費爾德曼在 IPO 週接受 Bloomberg 專訪,直接反駁 Ben Thompson「Agent 不需要速度」的論點,並提出具體數據指出 NVIDIA CUDA 護城河正在快速流失:三大前沿模型中只剩 OpenAI 的 GPT 還在 CUDA 上訓練。

Cerebras 創辦人反擊 Ben Thompson:速度無用論「大錯特錯」,CUDA 護城河已失守七成

本文整理自 Bloomberg《Odd Lots》Podcast 2026 年 5 月播出的單集。


被點名的人開口了

五天前,我們寫了一篇文章討論 Stratechery 創辦人 Ben Thompson 對 Cerebras 上市的冷水分析:他認為 Cerebras 擅長的「快速回答」推論只是整個推論市場的一小塊,真正會無限擴張的 Agent 工作負載根本不需要那麼快。這個論點在科技圈引起廣泛討論。現在,被質疑的那方親自上場了。

Cerebras 創辦人暨執行長安德魯·費爾德曼(Andrew Feldman)在 IPO 週接受 Odd Lots 專訪時,沒有迴避這個質疑。他直接點名 Thompson,用了一個詞:「大錯特錯」(dead wrong)。這場訪談涵蓋了技術、供應鏈、地緣政治到個人哲學,但費爾德曼最犀利的火力集中在兩個點:速度在所有場景都很重要,以及 NVIDIA 的 CUDA 護城河正在快速崩塌。

「慢速搜尋的市場是零」

費爾德曼反駁 Thompson 的邏輯很直接。他先問了一個問題:慢速搜尋的市場有多大?零。撥接上網的市場呢?也是零。他的論點是,人類在任何情境下都不想等。不管是坐在螢幕前問 ChatGPT 問題,還是讓 Agent 在背景跑一整套自動化任務,速度帶來的複合優勢都是決定性的。如果你的競爭對手的 Agent 在 20 分鐘內完成了三到十倍的工作量,長期下來你根本沒有勝算。

這跟 Thompson 的分析形成了正面對撞。Thompson 把推論分成「回答式」和「代理式」兩種,認為後者不需要極致速度,只需要夠大的記憶體和夠便宜的成本。費爾德曼完全不買帳。在他看來,這種區分本身就有問題,因為速度在所有生產性工作中都是核心競爭力。一個單位的速度優勢會在每次迭代中累積:快三倍不是只快三倍,而是在同樣時間裡完成六倍、十倍的工作。寫程式、做研究、跑自動化任務,速度的複合效應無處不在。

他還拿出了一個很有說服力的市場數據來佐證。Anthropic 曾推出一個加速推論方案,速度是一般方案的兩倍,定價卻是六倍。結果呢?售罄,完全供不應求。而 Cerebras 的推論速度是那個加速方案的 15 倍。換句話說,市場已經用真金白銀證明了速度的價值,而且遠遠沒有被滿足。

費爾德曼接著拆解了 GPU 的 token 經濟學。GPU 在產生慢速 token 時確實划算,單位成本低。但一旦你試著推高速度,成本和功耗就會急劇攀升。他用了一個比喻:就像汽車在高速公路上加速時油耗急遽惡化。Cerebras 的晶片架構不一樣,它的快速 token 成本只是同速度 GPU 的一小部分,功耗也低得多。慢 token 的市場或許屬於 GPU,但快 token 的市場是 Cerebras 的主場。

CUDA 護城河正在崩塌

如果速度之爭還可以見仁見智,費爾德曼對 CUDA 護城河的分析就是直接拿數字說話了。CUDA 長期被視為 NVIDIA 最深的護城河:全世界的 AI 開發者都在 CUDA 上寫程式,遷移成本高到讓人卻步。但費爾德曼指出,這個敘事正在被事實推翻。

一年前,三大前沿模型實驗室全部在 CUDA 基礎上訓練模型。今天只剩一家。Google 的 Gemini 完全在自家 TPU 上訓練和部署,沒有任何 CUDA 依賴。Anthropic 的 Claude 在 AWS 的 Trainium 上訓練,部署時混用 Trainium、TPU 和 GPU。只有 OpenAI 的 GPT 還留在 CUDA 環境裡。費爾德曼數得很清楚:三家裡走了兩家,CUDA 在前沿模型訓練市場的市占率流失了大約 70%。

推論端的情況對 NVIDIA 更不利。費爾德曼直言,CUDA 在推論領域「完全沒有角色」。把一個模型從 GPU 搬到 Cerebras 上跑,只需要改十個按鍵,指向一個新的 API 端點就完成了。不需要重寫程式碼,不需要重新訓練,不需要任何軟體層的適配。這跟訓練階段需要深度整合 CUDA 工具鏈完全不同。如果推論真的是接下來最大的市場,那 CUDA 護城河恰好在最重要的戰場上形同虛設。

費爾德曼的立場當然不是中立的,他是 NVIDIA 的直接競爭對手,有明確的利益動機去唱衰 CUDA。但他提出的數據是可驗證的:Gemini 確實跑在 TPU 上,Claude 確實跑在 Trainium 上,這些不是意見而是事實。真正的問題在於,這個趨勢會不會擴散到更多客戶。如果連前沿實驗室都在脫離 CUDA,一般企業客戶的遷移意願只會更高,不會更低。

三大供應鏈瓶頸,全部閃避

費爾德曼對供應鏈的分析同樣具體。他指出,目前卡住整個 AI 晶片產業的有三大瓶頸:HBM 高頻寬記憶體(由三星、SK 海力士、美光三家壟斷,供貨極度緊張)、台積電的 CoWoS 先進封裝製程(NVIDIA 高度依賴),以及台積電最吃緊的 3 奈米產線。Cerebras 一個都不用。它不使用 HBM,而是在晶圓上直接塞滿快速的 SRAM 記憶體。它不需要 CoWoS 封裝,因為整片晶圓本身就是一顆晶片。它使用的是台積電 5 奈米製程,避開了 3 奈米的產能排擠。

這意味著,當 NVIDIA 和其他 GPU 廠商為了搶 HBM 產能和 CoWoS 封裝排隊等候時,Cerebras 完全不受影響。費爾德曼表示,到目前為止台積電都能提供 Cerebras 所需的全部晶圓產能。但他也坦承,真正卡住 Cerebras 和整個產業的瓶頸跟晶片無關:是有電力供應的資料中心建築。這個限制預計還會持續 15 到 18 個月。

他把這個矛盾描述得很生動:你花了十年發明一項 75 年來沒人做到的技術,寫了極其複雜的軟體,打造出比市場上所有產品快十幾倍的晶片。然後呢?你被建築物卡住了。這是 2026 年 AI 基礎建設的荒謬現實。矽的問題解決了,軟體的問題解決了,最後的瓶頸是鋼筋水泥和變電站。

不會只有一個贏家

費爾德曼對 AI 市場結構的預測也值得關注。他不認為會出現一個壟斷性的模型或平台,而是會像半導體產業一樣多元並存。x86 架構有 AMD 和 Intel 兩家,旁邊還有龐大的 ARM 生態系,再加上各種客製化矽晶片。AI 模型市場也會是類似的格局:OpenAI 會持續做出驚人的產品,競爭者會冒出來,開源也會是一個持久且重要的選項。

在開源 vs 閉源的辯論上,他的判斷很務實。閉源模型在能力上嚴格來說比開源好,但差距只有大約 3% 到 5%。開源模型便宜得多,因為使用者只需要付運算成本,不需要分攤訓練費用。他以在 Cerebras 雲端上運行的 Kimi K2(月之暗面推出的一兆參數開源模型)為例,說明開源的性價比優勢正在快速縮小跟閉源的品質差距。目前閉源陣營的 OpenAI 和 Anthropic 正在跟開源驅動的 Cursor、Cognition 激烈競爭,勝負還沒有定論。

回到那場跟 Ben Thompson 的辯論。Thompson 的觀點有他的道理:Agent 時代確實可能改變推論市場的需求結構。但費爾德曼的反駁也有說服力:在任何需要迭代和競爭的工作流中,速度都會是決定性因素。這場辯論短期內不會有結論,因為 Agent 的規模化部署才剛開始。但至少在 2026 年 5 月,市場已經用 Cerebras 高達 950 億美元的首日市值表明了立場。在 AI 推論這場仗裡,押注速度的人目前還是佔了上風。