每年夏天 AI 都要被唱衰一次,今年輪到 Token 不夠用了
AI 夏日恐慌連續第四年報到。2026 年的版本首次圍繞真實經濟約束:token 短缺、補貼時代結束、使用量定價衝擊。但 GPU 租金翻倍、Baseten 單季營收三倍成長、DeepSWE 揭示模型效率差距,都指向同一件事:不是需求在崩盤,是市場在學定價。

本文整理自 The AI Daily Brief 2026 年 5 月播出的單集。
年年恐慌,年年被打臉
2023 年夏天,ChatGPT 出現上線以來首次流量下滑,數據分析公司 SimilarWeb 說這是「新鮮感消退」,Business Insider 把學生放暑假上網變少這件事,當成 OpenAI 長期前景堪憂的證據。結果 Q4 一口氣冒出好幾個 GPT-4 等級的模型,Google 在 12 月推出 Gemini,恐慌煙消雲散。
2024 年夏天,關鍵字換成了「預訓練撞牆」。當時的論述是:訓練資料快用完了,模型不會再進步了。結果 9 月 OpenAI 發表 o1,用推理時間計算(test-time compute)開闢了全新的能力維度,撞牆論應聲瓦解。
2025 年更持久。MIT 一份備受爭議的研究宣稱 95% 的生成式 AI 專案以失敗收場,GPT-5 帶著萬千期待亮相卻令人普遍失望,泡沫論從夏天延燒到 Q4。直到 Claude Code 和 Opus 4.5 問世,加上 GPT-5.3 和 5.4 展現前所未有的 agent 能力,業界才承認一個重要的能力關卡已經被跨越。
AI Daily Brief 主持人 NLW 把這個規律稱為「年度 AI 夏日恐慌」。他觀察到,這些恐慌是兩種人的無意識合作:一邊是把唱衰 AI 當成個人品牌或商業模式的專業評論家,另一邊是單純覺得累了、希望 AI 別再那麼重要的普通人,因為光是想到要適應就已經精疲力竭。
2026 年的版本提早報到了。但這一次,劇本跟以前不太一樣。
2026 上半年:Agent 爆發與 Token 大戰
要理解今年恐慌的本質,得先看今年上半年到底發生了什麼。
Claude Code、Opus 4.5、GPT-5.3 和 5.4 在 2025 年底到 2026 年初接連登場後,agent(AI 代理人)從概念變成了真正能用的工具。人們在新買的 Mac mini 上設定 Claude Code 的運作環境,「harness 工程」這個詞從矽谷小圈子擴散到一般企業。企業界突然意識到 AI 的能力超前(capability overhang)比想像中更嚴重,追趕賽全面啟動。
在這場追趕賽中,出現了一種叫「token maxing」的企業文化:鼓勵員工盡可能多用 AI,用消耗的 token 數量當衡量指標。Meta 被爆出內部設有 token 使用排行榜,這股風氣還擴散到科技業以外。Uber 宣布短短幾個月就把全年 token 預算燒光。
這背後有一個結構性轉變。AI 產業的營收模式從「賣座位數」切換成「賣 token 消耗量」。當 AI 從輔助工具升級為能自主行動的 agent,每個任務消耗的 token 量暴增,營收跟著起飛。OpenAI 的年化營收率達到 300 億美元,Anthropic 更飆到 450 億美元(兩家會計方法不完全一致,但趨勢共通)。今年 5 月初 The Atlantic 甚至發文暗示,也許那些看似瘋狂的基礎設施投資,其實沒那麼瘋狂。
然而,就在這片榮景背後,一場清算正在醞釀。
恐慌劇本 2026:Token 不夠用,補貼時代結束
Token 太貴,而且供不應求。各家公司被迫把商業模式從座位制改成使用量計費。衝擊最大的是重度使用者:有些「專業消費者」(prosumer)在每月 200 美元的方案上,實際消耗了價值 5,000 到 10,000 美元的 token。補貼模式再也撐不住了。
NLW 直言:AI 補貼時代正式結束。從今年年初到年中,那段可以低成本大量實驗 agent 的黃金時期,已經畫下句點。
甚至白宮都跳進來了。Anthropic 想擴大旗下最強大但仍限制使用的 Mythos 模型時,白宮反對,理由不只是資安考量,而是政府想優先取得那些 token。AI 運算資源的配給,已經上升到地緣政治層級。
這些變化立刻被套上泡沫敘事。Uber 的營運長在一次訪問中坦承,那些 token 花費沒有帶來對應的消費者功能產出,專業 AI 唱衰者如獲至寶。CNBC 記者 Deirdre Bosa 分析:企業若削減 AI 支出或轉向更便宜的中國模型,OpenAI 和 Anthropic 的定價能力就會受威脅,而它們的高估值正建立在定價能力之上。
同一週,一張 VS Code 上 AI 程式碼助手每日安裝量的圖表在社群瘋傳,顯示成長已經停滯。AI 顧問公司紛紛跳出來搖頭嘆息,說企業在亂花 token 的錢。NLW 不客氣地指出,這些人就是去年最努力傳播 MIT「95% 失敗率」說法的同一批人,因為他們可以說「95% 的人失敗了,我們能幫你成為那 5%」。
泡沫敘事的劇本已經寫好:Token 浪費 → 企業削減支出 → OpenAI 和 Anthropic 營收崩盤 → 基礎設施過度投資 → AI 泡沫破裂。
但數據說的是另一回事。
這不是泡沫在破裂
如果 AI 需求真的在萎縮,GPU 的租金應該下降才對。但現實完全相反。記者 Derek Thompson 指出,GPU 租金在過去四個月翻了一倍。他用了一個精準的比喻:如果紐約的飯店房價比去年貴了一倍,你不會相信那些說「沒人想去紐約」的人。
賓大華頓商學院教授 Ethan Mollick 的反應更直接:需求上升導致價格上漲,價格上漲導致需求下降,這不就是某種均衡正在形成嗎?他強調,沒有任何跡象顯示企業覺得 AI 越來越沒用。
研究機構 Epoch AI 提供了具體數字。全球推論運算容量(也就是 token 供應)每年成長超過三倍,但全球 token 需求每年成長大約十倍。供應擴張三倍,需求擴張十倍。在這種結構性失衡下,OpenAI 和 Anthropic 不太可能有賣不掉的 token。
AI 政策顧問 Dean Ball 在社群上感嘆:「我感覺我們又要迎來一個對 AI 不滿的夏天了,就像去年一堆 AI 評論界的同行宣稱深度學習撞牆一樣。」
把這件事想清楚:一個大家搶著買、價格不斷飆升的商品,怎麼會是泡沫破裂的前兆?NLW 認為,這些約束是真實的,但它們看起來更像一個市場在學習為稀缺資源定價,而不是需求在崩潰。
推論經濟的崛起
如果 AI 的邊際投資美元不再流向訓練,那它流向哪裡?答案是推論(inference),也就是讓已經訓練好的模型實際服務使用者的那一層。
Nebius 的 Dylan Brislot 觀察到,奧特曼(Sam Altman)說的「我們現在是一家推論公司」可能是今年最清晰的策略重組宣言,卻幾乎沒人注意到。大眾還在用訓練的框架看 AI 競爭:誰的叢集最大、誰的資料最多、誰的擴展賭注最大膽。但 2026 年的邊際美元已經不在那裡了。Brislot 說,邊際美元是拿來服務一個推理模型的:它在回答前要思考十秒、維持百萬 token 的上下文不崩潰、呼叫外部工具、回來驗證自己,然後對整條軌跡上的每個 token 計費。訓練跑一次就攤提了,服務跑的成本在使用者每次開 app 時重複發生。
兩家新創的成長數據為這個趨勢做了最好的註腳。AI 推論平台 Baseten 正在進行接近 10 億美元的新一輪融資,估值達 110 億美元,比三個月前翻了一倍多。更驚人的是營收表現:今年 Q1 單季,年化營收從 2 億美元飆到 6 億美元,三倍成長。跟去年 3 月相比,營收率暴增 20 倍。Baseten 的模式是幫企業微調開源模型並部署到生產環境,自己不擁有 GPU,而是從大型雲端商轉售算力。
另一家是 OpenRouter。它讓開發者透過單一平台存取超過 400 種 AI 模型,不必分別串接各家的 API,可以依效能、成本或穩定性靈活切換。OpenRouter 剛以 13 億美元估值完成 1.13 億美元的 B 輪融資,由 Alphabet 旗下 CapitalG 領投、NVIDIA 旗下 NVentures 跟投。它的月 token 處理量達到 100 兆,是半年前的五倍。營收率在今年 2 月開啟融資後已經翻倍。
Baseten 單季三倍成長、OpenRouter 半年五倍跳升。這些數字,很難塞進「泡沫要破了」的敘事裡。
DeepSWE:Token 昂貴的時代,誰最會寫程式?
在 token 越來越貴的世界裡,能用更少 token 完成同樣工作的 AI 模型,價值會急遽放大。上週發布的 DeepSWE 基準測試,正好揭示了這個關鍵訊息。
為什麼現有基準不夠用
DeepSWE 由 Datacurve 開發,直接回應了既有程式碼基準測試的根本缺陷。Datacurve 的 Serena Goh 指出,被廣泛使用的 SWE-Bench 系列是從 GitHub 上的真實 issue 和 PR 中抓取任務的,這造成兩個問題。第一是記憶效應:模型在訓練資料中可能已經看過解答。第二是任務規模太小:多數題目跟真實工程工作相去甚遠。在公開排行榜上,頂級模型的分數往往非常接近,讓人以為它們的能力差不多。但 DeepSWE 想揭示的正是:它們其實差很多。
DeepSWE 的做法完全不同。它的 113 個任務全部從零建構,涵蓋 91 個開源專案和五種程式語言。題目描述刻意簡短自然,但要求的程式碼量大得多,模擬真實世界中需要跨多個檔案、使用工具、進行長上下文推理的複雜工程場景。為了防止資料汙染,Datacurve 刻意不把解答上傳到 GitHub。
GPT-5.5 的壓倒性領先
首次公開測試的結果讓業界頗為震撼。GPT-5.5 以 70% 的通過率遙遙領先,GPT-5.4 以 56% 排第二,Opus 4.7 以 54% 緊隨其後。再往下分數急遽下滑,顯示這個基準確實能把真正具備長期任務處理能力的少數模型,從大量候選者中篩選出來。
更耐人尋味的是跟其他基準的對比落差。中國模型 Kimi K2.6 在 Terminal Bench 2.0 和 SWE-Bench Pro 上曾小幅贏過 GPT-5.4,但在 DeepSWE 上被 GPT-5.4 拉開超過 30 個百分點,只拿到 24%。DeepSeek v4 更只有 8%。整體而言,中國模型在這個基準上的表現明顯落後,跟其他排行榜上中美差距不斷縮小的印象形成了有趣的反差。
Y Combinator 執行長 Garry Tan 稱 DeepSWE 是「工程評測的新標準」。開發者 Siki Chen 也表示,這個基準跟他真實使用長期任務的感受高度吻合。
效率才是新戰場
在 token 稀缺的時代,DeepSWE 揭示的效率差距比排名本身更有意義。
跟 Opus 4.7 相比,GPT-5.5 大約只用了一半的 token,完成時間不到一半,成本大約是三分之一。這組數據在當前產業背景下格外重要。當每個 token 都有成本,一個能用更少 token 完成同品質工作的模型,在性價比上就有巨大的結構性優勢。這不只是學術上的效能評比,而是直接影響企業選擇的商業決策。
自我驗證:頂級模型的秘密武器
Datacurve 不只看結果對不對,還建了一套質性評估框架來分析模型為什麼會失敗。他們發現,區分頂級模型和其餘模型的最大因素是「自我驗證」行為:GPT-5.4 和 Opus 4.7 在超過 80% 的任務中會自行撰寫測試來檢驗自己的工作成果,而較弱的模型很少這麼做。
這個發現意味深長。在 AI agent 越來越自主的趨勢下,模型是否懂得「自我檢查」可能比原始能力更關鍵。一個會自我驗證的模型出錯時能及時修正,一個不會的模型則可能一路錯到底,浪費大量 token 卻交出無法使用的結果。
Datacurve 還發現 Anthropic 模型的一個特殊弱點:Claude 在面對多步驟要求時,經常只完成其中一部分而遺漏另一部分。例如一個任務同時要求支援同步和非同步操作,Claude 做了同步就忘了非同步。OpenAI 的模型不太會犯這種錯,而且這個提示詞遵循度的差距在多次測試中一致出現。Datacurve 也坦承框架的限制:強制使用 bash 指令可能壓低了某些模型的上限,去掉 Claude Code 或 Codex 等原生環境的加成效果,也可能不均勻地影響了分數。
市場正在自我修正
DeepSWE 揭示的效率差距並非孤例。整個市場正在用效率創新回應 token 短缺的壓力。
Cursor 的新模型 Composer 2.5 在 Artificial Analysis 的 Coding Agent Index 上衝到第三名,僅次於 Opus 4.7 Max 和 GPT-5.5 Extra High,但成本只有它們的十分之一到六十分之一。Google 的小型模型 Gemma 4 雖然在上週 I/O 大會上沒被大力宣傳,採用速度卻悄悄超越了中國的 Qwen 3.5 和 3.6。Hugging Face Spaces 的 Swix 觀察到一個被忽略的趨勢:大家都在談中國追趕美國,卻沒注意到在便宜模型這條賽道上,美國正在反超。
至於那張瘋傳的 VS Code 安裝量停滯圖表,開發者 Simon Willison 給了一個直接的解釋:最熱門的程式碼 agent 介面早就不住在 IDE 裡了。用 Claude Code 或 Codex 的人透過終端機操作,根本不會出現在 VS Code 的安裝統計裡。他拿出 Codex 的 NPM 安裝數據佐證:1 月份每天大約 10 萬次安裝,現在超過 100 萬次,最近幾天更飆到 150 萬到 180 萬。開發者 Ronan Bairdor 也指出,Cursor 和 VS Code 正在丟市場份額給 CLI 和桌面應用。那張圖表講的不是 AI 程式碼工具在降溫,而是 VS Code 本身在失去地盤。
NLW 補充了一個更宏觀的視角:成長不會永遠是一條直線往上。多數領域的發展呈現「間斷平衡」(punctuated equilibrium)模式,穩定一陣、跳升一次,再穩定一陣。一個高速成長期之後出現停滯,本身並不值得恐慌。
恐慌的另一面:Agent Debt、時間與反思
恐慌期不全是壞事。AI 產業的成本壓力,正從一個出人意料的方向緩解了另一種焦慮。
OpenAI 執行長奧特曼(Sam Altman)上週在澳洲的一場會議上公開修正了自己之前的立場。他說,他不認為會有某些同業所鼓吹的那種工作末日。他本來預期到現在應該會看到更多初階白領工作被取代,但實際上沒有發生。帶著少見的謙遜,他承認自己的直覺判斷錯了,因為低估了工作中人際互動的難以替代性。
高盛執行長大衛.所羅門(David Solomon)在 5 月 22 日的紐約時報投書中呼應了這個觀點。他引用高盛經濟學家的預測:未來十年約四分之一的工時會被自動化,高盛內部已有 16% 的初階職務任務被 AI 接手。但他的核心論點是,市場很少用生產力提升來把同樣的產品賣得更便宜,而是用新工具在同樣的價格下提供更好的產品。以投資銀行為例,這代表用更快的速度、更全面的分析、更高密度的客戶服務來贏得業務。
NLW 從中看到一個微妙的連結:agent 使用成本比預期高出許多,某種程度上改變了「人類被取代」的算計。就算只是暫時的,高成本也替社會爭取到了適應的時間。而且市場驅動的價格調整,比由上而下的強制放緩更健康、更可持續。
這段相對緩慢的時期還催生了有意思的反思。創業者 Greg Eisenberg 最近在舊金山聽到了一個新概念:agent debt(代理人債務)。就像軟體開發中的技術債,agent debt 指的是團隊匆忙搭建 agent 工作流程卻從不清理,導致系統提示互相衝突、記憶被汙染、工具功能重疊。半年後 agent 開始出現離奇行為,沒人知道為什麼。今年上半年的瘋狂實驗期,可能已經在許多組織內部累積了大量 agent debt。接下來這段較慢的時期,正好是系統性處理這些問題的窗口。
恐慌期是拉開差距的最佳時機
NLW 在節目最後的觀察值得記住。他說,對於真正想建立 AI 優勢的人來說,恐慌期是最好的時機。當同行在觀望、在希望 AI 不成氣候、在等「泡沫」破裂的時候,持續學習和實驗的人正在累積複利式的領先。OpenAI 和 Anthropic 也都在近期成立了諮詢服務,協助企業更周全地導入 AI,這同樣是一個市場正在成熟而非崩潰的訊號。
AI 夏日恐慌第四季的劇本已經就緒。Token 短缺是真的,免費實驗的日子確實結束了,成本壓力會淘汰一些不成熟的應用。但把這個解讀為泡沫破裂,就像看到飯店房價翻倍就說沒人要旅行一樣。
真正值得追蹤的訊號藏在那些不夠聳動的數據裡:Baseten 單季營收三倍成長、OpenRouter 半年處理量五倍跳升、GPU 租金持續翻倍、DeepSWE 顯示頂級模型在效率上的差距比想像中更大。這些都不是一個正在崩潰的產業會出現的數字。市場不是在萎縮,是在重新定價。差別很大。