AI 產業動態

每年夏天 AI 都要被唱衰一次，今年輪到 Token 不夠用了

AI 夏日恐慌連續第四年報到。2026 年的版本首次圍繞真實經濟約束：token 短缺、補貼時代結束、使用量定價衝擊。但 GPU 租金翻倍、Baseten 單季營收三倍成長、DeepSWE 揭示模型效率差距，都指向同一件事：不是需求在崩盤，是市場在學定價。

2026 年 5 月 29 日 · 來源： The AI Daily Brief

本文整理自 The AI Daily Brief 2026 年 5 月播出的單集。

年年恐慌，年年被打臉

2023 年夏天，ChatGPT 出現上線以來首次流量下滑，數據分析公司 SimilarWeb 說這是「新鮮感消退」，Business Insider 把學生放暑假上網變少這件事，當成 OpenAI 長期前景堪憂的證據。結果 Q4 一口氣冒出好幾個 GPT-4 等級的模型，Google 在 12 月推出 Gemini，恐慌煙消雲散。

2024 年夏天，關鍵字換成了「預訓練撞牆」。當時的論述是：訓練資料快用完了，模型不會再進步了。結果 9 月 OpenAI 發表 o1，用推理時間計算（test-time compute）開闢了全新的能力維度，撞牆論應聲瓦解。

2025 年更持久。MIT 一份備受爭議的研究宣稱 95% 的生成式 AI 專案以失敗收場，GPT-5 帶著萬千期待亮相卻令人普遍失望，泡沫論從夏天延燒到 Q4。直到 Claude Code 和 Opus 4.5 問世，加上 GPT-5.3 和 5.4 展現前所未有的 agent 能力，業界才承認一個重要的能力關卡已經被跨越。

AI Daily Brief 主持人 NLW 把這個規律稱為「年度 AI 夏日恐慌」。他觀察到，這些恐慌是兩種人的無意識合作：一邊是把唱衰 AI 當成個人品牌或商業模式的專業評論家，另一邊是單純覺得累了、希望 AI 別再那麼重要的普通人，因為光是想到要適應就已經精疲力竭。

2026 年的版本提早報到了。但這一次，劇本跟以前不太一樣。

2026 上半年：Agent 爆發與 Token 大戰

要理解今年恐慌的本質，得先看今年上半年到底發生了什麼。

Claude Code、Opus 4.5、GPT-5.3 和 5.4 在 2025 年底到 2026 年初接連登場後，agent（AI 代理人）從概念變成了真正能用的工具。人們在新買的 Mac mini 上設定 Claude Code 的運作環境，「harness 工程」這個詞從矽谷小圈子擴散到一般企業。企業界突然意識到 AI 的能力超前（capability overhang）比想像中更嚴重，追趕賽全面啟動。

在這場追趕賽中，出現了一種叫「token maxing」的企業文化：鼓勵員工盡可能多用 AI，用消耗的 token 數量當衡量指標。Meta 被爆出內部設有 token 使用排行榜，這股風氣還擴散到科技業以外。Uber 宣布短短幾個月就把全年 token 預算燒光。

這背後有一個結構性轉變。AI 產業的營收模式從「賣座位數」切換成「賣 token 消耗量」。當 AI 從輔助工具升級為能自主行動的 agent，每個任務消耗的 token 量暴增，營收跟著起飛。OpenAI 的年化營收率達到 300 億美元，Anthropic 更飆到 450 億美元（兩家會計方法不完全一致，但趨勢共通）。今年 5 月初 The Atlantic 甚至發文暗示，也許那些看似瘋狂的基礎設施投資，其實沒那麼瘋狂。

然而，就在這片榮景背後，一場清算正在醞釀。

恐慌劇本 2026：Token 不夠用，補貼時代結束

Token 太貴，而且供不應求。各家公司被迫把商業模式從座位制改成使用量計費。衝擊最大的是重度使用者：有些「專業消費者」（prosumer）在每月 200 美元的方案上，實際消耗了價值 5,000 到 10,000 美元的 token。補貼模式再也撐不住了。

NLW 直言：AI 補貼時代正式結束。從今年年初到年中，那段可以低成本大量實驗 agent 的黃金時期，已經畫下句點。

甚至白宮都跳進來了。Anthropic 想擴大旗下最強大但仍限制使用的 Mythos 模型時，白宮反對，理由不只是資安考量，而是政府想優先取得那些 token。AI 運算資源的配給，已經上升到地緣政治層級。

這些變化立刻被套上泡沫敘事。Uber 的營運長在一次訪問中坦承，那些 token 花費沒有帶來對應的消費者功能產出，專業 AI 唱衰者如獲至寶。CNBC 記者 Deirdre Bosa 分析：企業若削減 AI 支出或轉向更便宜的中國模型，OpenAI 和 Anthropic 的定價能力就會受威脅，而它們的高估值正建立在定價能力之上。

同一週，一張 VS Code 上 AI 程式碼助手每日安裝量的圖表在社群瘋傳，顯示成長已經停滯。AI 顧問公司紛紛跳出來搖頭嘆息，說企業在亂花 token 的錢。NLW 不客氣地指出，這些人就是去年最努力傳播 MIT「95% 失敗率」說法的同一批人，因為他們可以說「95% 的人失敗了，我們能幫你成為那 5%」。

泡沫敘事的劇本已經寫好：Token 浪費 → 企業削減支出 → OpenAI 和 Anthropic 營收崩盤 → 基礎設施過度投資 → AI 泡沫破裂。

但數據說的是另一回事。

這不是泡沫在破裂

如果 AI 需求真的在萎縮，GPU 的租金應該下降才對。但現實完全相反。記者 Derek Thompson 指出，GPU 租金在過去四個月翻了一倍。他用了一個精準的比喻：如果紐約的飯店房價比去年貴了一倍，你不會相信那些說「沒人想去紐約」的人。

賓大華頓商學院教授 Ethan Mollick 的反應更直接：需求上升導致價格上漲，價格上漲導致需求下降，這不就是某種均衡正在形成嗎？他強調，沒有任何跡象顯示企業覺得 AI 越來越沒用。

研究機構 Epoch AI 提供了具體數字。全球推論運算容量（也就是 token 供應）每年成長超過三倍，但全球 token 需求每年成長大約十倍。供應擴張三倍，需求擴張十倍。在這種結構性失衡下，OpenAI 和 Anthropic 不太可能有賣不掉的 token。

AI 政策顧問 Dean Ball 在社群上感嘆：「我感覺我們又要迎來一個對 AI 不滿的夏天了，就像去年一堆 AI 評論界的同行宣稱深度學習撞牆一樣。」

把這件事想清楚：一個大家搶著買、價格不斷飆升的商品，怎麼會是泡沫破裂的前兆？NLW 認為，這些約束是真實的，但它們看起來更像一個市場在學習為稀缺資源定價，而不是需求在崩潰。

推論經濟的崛起

如果 AI 的邊際投資美元不再流向訓練，那它流向哪裡？答案是推論（inference），也就是讓已經訓練好的模型實際服務使用者的那一層。

Nebius 的 Dylan Brislot 觀察到，奧特曼（Sam Altman）說的「我們現在是一家推論公司」可能是今年最清晰的策略重組宣言，卻幾乎沒人注意到。大眾還在用訓練的框架看 AI 競爭：誰的叢集最大、誰的資料最多、誰的擴展賭注最大膽。但 2026 年的邊際美元已經不在那裡了。Brislot 說，邊際美元是拿來服務一個推理模型的：它在回答前要思考十秒、維持百萬 token 的上下文不崩潰、呼叫外部工具、回來驗證自己，然後對整條軌跡上的每個 token 計費。訓練跑一次就攤提了，服務跑的成本在使用者每次開 app 時重複發生。

兩家新創的成長數據為這個趨勢做了最好的註腳。AI 推論平台 Baseten 正在進行接近 10 億美元的新一輪融資，估值達 110 億美元，比三個月前翻了一倍多。更驚人的是營收表現：今年 Q1 單季，年化營收從 2 億美元飆到 6 億美元，三倍成長。跟去年 3 月相比，營收率暴增 20 倍。Baseten 的模式是幫企業微調開源模型並部署到生產環境，自己不擁有 GPU，而是從大型雲端商轉售算力。

另一家是 OpenRouter。它讓開發者透過單一平台存取超過 400 種 AI 模型，不必分別串接各家的 API，可以依效能、成本或穩定性靈活切換。OpenRouter 剛以 13 億美元估值完成 1.13 億美元的 B 輪融資，由 Alphabet 旗下 CapitalG 領投、NVIDIA 旗下 NVentures 跟投。它的月 token 處理量達到 100 兆，是半年前的五倍。營收率在今年 2 月開啟融資後已經翻倍。

Baseten 單季三倍成長、OpenRouter 半年五倍跳升。這些數字，很難塞進「泡沫要破了」的敘事裡。

DeepSWE：Token 昂貴的時代，誰最會寫程式？

在 token 越來越貴的世界裡，能用更少 token 完成同樣工作的 AI 模型，價值會急遽放大。上週發布的 DeepSWE 基準測試，正好揭示了這個關鍵訊息。

為什麼現有基準不夠用

DeepSWE 由 Datacurve 開發，直接回應了既有程式碼基準測試的根本缺陷。Datacurve 的 Serena Goh 指出，被廣泛使用的 SWE-Bench 系列是從 GitHub 上的真實 issue 和 PR 中抓取任務的，這造成兩個問題。第一是記憶效應：模型在訓練資料中可能已經看過解答。第二是任務規模太小：多數題目跟真實工程工作相去甚遠。在公開排行榜上，頂級模型的分數往往非常接近，讓人以為它們的能力差不多。但 DeepSWE 想揭示的正是：它們其實差很多。

DeepSWE 的做法完全不同。它的 113 個任務全部從零建構，涵蓋 91 個開源專案和五種程式語言。題目描述刻意簡短自然，但要求的程式碼量大得多，模擬真實世界中需要跨多個檔案、使用工具、進行長上下文推理的複雜工程場景。為了防止資料汙染，Datacurve 刻意不把解答上傳到 GitHub。

GPT-5.5 的壓倒性領先

首次公開測試的結果讓業界頗為震撼。GPT-5.5 以 70% 的通過率遙遙領先，GPT-5.4 以 56% 排第二，Opus 4.7 以 54% 緊隨其後。再往下分數急遽下滑，顯示這個基準確實能把真正具備長期任務處理能力的少數模型，從大量候選者中篩選出來。

更耐人尋味的是跟其他基準的對比落差。中國模型 Kimi K2.6 在 Terminal Bench 2.0 和 SWE-Bench Pro 上曾小幅贏過 GPT-5.4，但在 DeepSWE 上被 GPT-5.4 拉開超過 30 個百分點，只拿到 24%。DeepSeek v4 更只有 8%。整體而言，中國模型在這個基準上的表現明顯落後，跟其他排行榜上中美差距不斷縮小的印象形成了有趣的反差。

Y Combinator 執行長 Garry Tan 稱 DeepSWE 是「工程評測的新標準」。開發者 Siki Chen 也表示，這個基準跟他真實使用長期任務的感受高度吻合。

效率才是新戰場

在 token 稀缺的時代，DeepSWE 揭示的效率差距比排名本身更有意義。

跟 Opus 4.7 相比，GPT-5.5 大約只用了一半的 token，完成時間不到一半，成本大約是三分之一。這組數據在當前產業背景下格外重要。當每個 token 都有成本，一個能用更少 token 完成同品質工作的模型，在性價比上就有巨大的結構性優勢。這不只是學術上的效能評比，而是直接影響企業選擇的商業決策。

自我驗證：頂級模型的秘密武器

Datacurve 不只看結果對不對，還建了一套質性評估框架來分析模型為什麼會失敗。他們發現，區分頂級模型和其餘模型的最大因素是「自我驗證」行為：GPT-5.4 和 Opus 4.7 在超過 80% 的任務中會自行撰寫測試來檢驗自己的工作成果，而較弱的模型很少這麼做。

這個發現意味深長。在 AI agent 越來越自主的趨勢下，模型是否懂得「自我檢查」可能比原始能力更關鍵。一個會自我驗證的模型出錯時能及時修正，一個不會的模型則可能一路錯到底，浪費大量 token 卻交出無法使用的結果。

Datacurve 還發現 Anthropic 模型的一個特殊弱點：Claude 在面對多步驟要求時，經常只完成其中一部分而遺漏另一部分。例如一個任務同時要求支援同步和非同步操作，Claude 做了同步就忘了非同步。OpenAI 的模型不太會犯這種錯，而且這個提示詞遵循度的差距在多次測試中一致出現。Datacurve 也坦承框架的限制：強制使用 bash 指令可能壓低了某些模型的上限，去掉 Claude Code 或 Codex 等原生環境的加成效果，也可能不均勻地影響了分數。

市場正在自我修正

DeepSWE 揭示的效率差距並非孤例。整個市場正在用效率創新回應 token 短缺的壓力。

Cursor 的新模型 Composer 2.5 在 Artificial Analysis 的 Coding Agent Index 上衝到第三名，僅次於 Opus 4.7 Max 和 GPT-5.5 Extra High，但成本只有它們的十分之一到六十分之一。Google 的小型模型 Gemma 4 雖然在上週 I/O 大會上沒被大力宣傳，採用速度卻悄悄超越了中國的 Qwen 3.5 和 3.6。Hugging Face Spaces 的 Swix 觀察到一個被忽略的趨勢：大家都在談中國追趕美國，卻沒注意到在便宜模型這條賽道上，美國正在反超。

至於那張瘋傳的 VS Code 安裝量停滯圖表，開發者 Simon Willison 給了一個直接的解釋：最熱門的程式碼 agent 介面早就不住在 IDE 裡了。用 Claude Code 或 Codex 的人透過終端機操作，根本不會出現在 VS Code 的安裝統計裡。他拿出 Codex 的 NPM 安裝數據佐證：1 月份每天大約 10 萬次安裝，現在超過 100 萬次，最近幾天更飆到 150 萬到 180 萬。開發者 Ronan Bairdor 也指出，Cursor 和 VS Code 正在丟市場份額給 CLI 和桌面應用。那張圖表講的不是 AI 程式碼工具在降溫，而是 VS Code 本身在失去地盤。

NLW 補充了一個更宏觀的視角：成長不會永遠是一條直線往上。多數領域的發展呈現「間斷平衡」（punctuated equilibrium）模式，穩定一陣、跳升一次，再穩定一陣。一個高速成長期之後出現停滯，本身並不值得恐慌。

恐慌的另一面：Agent Debt、時間與反思

恐慌期不全是壞事。AI 產業的成本壓力，正從一個出人意料的方向緩解了另一種焦慮。

OpenAI 執行長奧特曼（Sam Altman）上週在澳洲的一場會議上公開修正了自己之前的立場。他說，他不認為會有某些同業所鼓吹的那種工作末日。他本來預期到現在應該會看到更多初階白領工作被取代，但實際上沒有發生。帶著少見的謙遜，他承認自己的直覺判斷錯了，因為低估了工作中人際互動的難以替代性。

高盛執行長大衛．所羅門（David Solomon）在 5 月 22 日的紐約時報投書中呼應了這個觀點。他引用高盛經濟學家的預測：未來十年約四分之一的工時會被自動化，高盛內部已有 16% 的初階職務任務被 AI 接手。但他的核心論點是，市場很少用生產力提升來把同樣的產品賣得更便宜，而是用新工具在同樣的價格下提供更好的產品。以投資銀行為例，這代表用更快的速度、更全面的分析、更高密度的客戶服務來贏得業務。

NLW 從中看到一個微妙的連結：agent 使用成本比預期高出許多，某種程度上改變了「人類被取代」的算計。就算只是暫時的，高成本也替社會爭取到了適應的時間。而且市場驅動的價格調整，比由上而下的強制放緩更健康、更可持續。

這段相對緩慢的時期還催生了有意思的反思。創業者 Greg Eisenberg 最近在舊金山聽到了一個新概念：agent debt（代理人債務）。就像軟體開發中的技術債，agent debt 指的是團隊匆忙搭建 agent 工作流程卻從不清理，導致系統提示互相衝突、記憶被汙染、工具功能重疊。半年後 agent 開始出現離奇行為，沒人知道為什麼。今年上半年的瘋狂實驗期，可能已經在許多組織內部累積了大量 agent debt。接下來這段較慢的時期，正好是系統性處理這些問題的窗口。

恐慌期是拉開差距的最佳時機

NLW 在節目最後的觀察值得記住。他說，對於真正想建立 AI 優勢的人來說，恐慌期是最好的時機。當同行在觀望、在希望 AI 不成氣候、在等「泡沫」破裂的時候，持續學習和實驗的人正在累積複利式的領先。OpenAI 和 Anthropic 也都在近期成立了諮詢服務，協助企業更周全地導入 AI，這同樣是一個市場正在成熟而非崩潰的訊號。

AI 夏日恐慌第四季的劇本已經就緒。Token 短缺是真的，免費實驗的日子確實結束了，成本壓力會淘汰一些不成熟的應用。但把這個解讀為泡沫破裂，就像看到飯店房價翻倍就說沒人要旅行一樣。

真正值得追蹤的訊號藏在那些不夠聳動的數據裡：Baseten 單季營收三倍成長、OpenRouter 半年處理量五倍跳升、GPU 租金持續翻倍、DeepSWE 顯示頂級模型在效率上的差距比想像中更大。這些都不是一個正在崩潰的產業會出現的數字。市場不是在萎縮，是在重新定價。差別很大。