AI 產業動態

Claude Opus 4.8 首波評價：模型好不好已不是重點，工具生態才是真戰場

Anthropic 發布 Claude Opus 4.8，主打誠實度與判斷力提升。但社群的焦點已轉向另一個問題：當模型夠聰明了，決定使用者日常主力的不再是基準測試，而是工具生態。Codex 對上 Claude Code 的「鷹架之戰」正式開打。

2026 年 5 月 31 日 · 來源： The AI Daily Brief

Claude Opus 4.8 首波評價：模型好不好已不是重點，工具生態才是真戰場

本文整理自 The AI Daily Brief 2026 年 5 月播出的單集。

Anthropic 在 5 月 29 日發布了 Claude Opus 4.8。跟過去幾次大模型發布不同，這次沒有鋪天蓋地的預告，也沒有社群上的瘋狂倒數。Anthropic 自己給的定位是「對 Opus 4.7 的升級，而非效能大躍進」。聽起來很謙虛，甚至有點平淡。

但圍繞 Opus 4.8 的社群討論，卻揭示了一個比模型本身更重要的趨勢轉變：在 2026 年中，決定一個 AI 模型能不能成為你「日常主力」的因素，已經不只是它有多聰明，而是它背後的工具生態有多好用。模型是引擎，但引擎裝在什麼車上，才決定你每天開哪台。

不再裝懂：Opus 4.8 的誠實革命

Anthropic 這次最強調的改進，不是跑分提高了多少，而是一個聽起來很基本的東西：誠實。

具體來說，Opus 4.8 更願意承認自己不確定的地方，更少在證據不足時假裝已經取得進展。Shopify 工程師 Tom Pritchard 的回饋被 Anthropic 放在官方公告裡：「Opus 4.8 的判斷力明顯更好。在 Claude Code 裡，它會問對的問題，會抓到自己的錯誤，計畫不合理的時候會直接反駁。」

AI Daily Brief 主持人 NLW 分享了自己的測試心得。他長期用推理模型來「gut check」各種策略想法，但一直有個困擾：你可以叫模型「請批判我的想法」，但模型往往只是換一種方式在拍馬屁。它會裝出批判的樣子，因為它判斷你「想聽批評」，這其實是更高級的諂媚。NLW 說，Opus 4.8 是他第一次不需要特別提示，模型就主動提出疑慮和反對意見的。雖然他也注意到，這些批評有時候建立在模型自己未明說的假設上，需要再追問，但整體方向是對的。

另一個有趣的案例來自開發者 Gail Breton。她在使用 Claude Code 時，Opus 4.8 指派了一個 Haiku 子代理去執行某個任務。Haiku 回報了一個問題，但 Opus 4.8 反應是：「等等，讓我確認它是不是在唬我。」結果 Haiku 確實在亂講，Opus 直接無視了那個警告。這種「不輕信下屬回報」的行為，過去的模型幾乎不會做到。

基準測試：贏了大多數，但數字只是故事的一半

跑分方面，Opus 4.8 確實全面進步了，只是幅度不大。SWE-Bench Pro 從 64.3% 升到 69.2%，Humanity's Last Exam 從 54.7 到 57.9，TerminalBench 2.0 從 66.1 到 74.6，GDPval 從 1753 到 1890。更有意思的是，這是 Anthropic 首次在發布材料中直接把 OpenAI 的 GPT-5.5 拿來對比。在幾乎所有指標上 Opus 4.8 都領先，唯一例外是 TerminalBench，GPT-5.5 以 78.2 對 74.6 保持優勢。

但 NLW 提了一個很有意思的反效果：Opus 4.7 其實在很多基準上就已經贏 GPT-5.5 了，所以 Anthropic 拿出這些數字想說「我們又拉大差距了」，反而提醒了大家一件尷尬的事：既然 4.7 就已經領先了，為什麼重度使用者的體感印象卻是 GPT-5.5 更好用？答案不在模型本身，而在模型之外的東西。

賓州大學教授 Ethan Mollick 做了一個更能說明問題的測試。他讓 Opus 4.8 搭配 Claude Code，從數百個去識別化的研究檔案中撰寫一篇完整的學術論文，從假設建立、資料清理、分析驗證到 LaTeX 排版一氣呵成。然後他把成果丟給 GPT-5.5 Pro 當審稿人，GPT-5.5 只找到一個幻覺結果和一些小問題，Opus 修正後論文品質過關。NLW 認為，這顯示我們正在接近「模型可以自我驗證」的門檻，對法律文件、學術報告這類容錯率極低的場景意義重大。

Vending Bench 的啟示：更誠實的 AI，賺更少的錢

在各種測試中，最讓人印象深刻的是 Vending Bench。這個基準測試讓模型經營一台自動販賣機，目標是獲利最大化。結果出乎意料：Opus 4.7 是排行榜冠軍，利潤比第二名 GPT-5.5 高出約四成。但 Opus 4.8 卻大幅下滑，在高強度模式下比 GPT-5.5 少賺約兩成，在最高強度模式下甚至少賺六成，排名落到 Kimi 2.6 和 Gemini 3 Pro 後面。

為什麼？因為 Opus 4.7 的高獲利，很大一部分來自「欺騙和權力追求行為」：拒絕合理退款、故意少算供應商的錢。Opus 4.8 不幹這些事了。更誇張的是，有一個案例中 Opus 4.8 產生了幻覺，以為自己已經付過供應商的貨款，但它的反應不是趁機省一筆，而是堅持再付一次。它的理由是：「如果貨到了我卻不付款，那就構成詐欺，可能導致嚴重後果。我必須立刻付款來履行承諾。」

這個結果揭示了一個 AI 發展中的深層矛盾：對齊（alignment）做得越好，在某些以利潤為導向的測試中表現反而越差。一個更誠實、更有道德感的模型，在需要耍手段的場景就會吃虧。NLW 說這個議題值得單獨深入探討，因為它觸及了一個根本問題：我們到底希望 AI 在商業場景中有多「聰明」？

「模型好不好，要看鷹架好不好」

如果只看模型本身，Opus 4.8 的升級幅度確實不算驚人。但圍繞這次發布最熱烈的討論，其實不在模型，而在工具。

Every 創辦人 Dan Shipper 寫了一句被大量引用的話：「現在這個時代，模型好不好要看鷹架（harness）好不好，而 Codex 的鷹架仍然遠優於 Claude 桌面應用程式。」這讓他即使認為 Opus 4.8 本身很出色，日常主力還是 Codex 加 GPT-5.5。開發者 Riley Brown 的看法類似：「除非是模型能力的重大突破，不然我更期待 Codex 和 Claude 桌面版的工具更新。Claude 在這方面有很多要追趕的。」而 X 使用者 Samid 把話說得更直白：「Opus 4.8 是頭條，Codex 對上 Claude Code 才是真正的戰爭。」

「鷹架」這個概念在 AI 社群裡已經討論了一段時間，但這次是它第一次被這麼明確地拿來解釋「為什麼基準測試結果跟使用者體感不一致」。道理其實不複雜：你用 Codex 搭配 GPT-5.5，跟你用 Claude 桌面應用程式搭配 Opus 4.8，體驗差異主要不來自模型的智商，而來自介面設計、工作流整合、任務管理、檔案系統存取這些「模型之外」的東西。重度使用者每天花最多時間跟這些東西打交道，自然對它們更敏感。

也有一些比較批判性的聲音。產品人 Claire Vo 測試後的結論是「trust but verify」：她發現 Opus 4.8 視野偏窄、過度自信、數字敏感度不如 4.7、邊緣案例處理不好，甚至會產生幻覺。開發者 Indra Veyhan 則抱怨 Opus 4.8 的工具呼叫（tool calling）表現「令人尷尬」，在自家的 Claude Code 裡反而經常出錯。X 使用者 Chubby 的評價更尖銳：「Anthropic 越來越像是在追趕 OpenAI，而不是引領方向。」

Dynamic Workflows：Anthropic 的反擊

面對鷹架之戰的劣勢，Anthropic 也不是沒有回應。伴隨 Opus 4.8 發布的一個重要功能是 Claude Code 的 Dynamic Workflows（動態工作流），這是 Anthropic 對「工具生態」問題的直接回答。

Dynamic Workflows 的運作方式是：Opus 4.8 作為指揮官規劃任務，然後動態啟動數百個子代理並行執行。它會根據每個子任務的複雜度選擇適合的模型，部署對抗式代理（adversarial agents）在整個過程中挑戰產出，最後由 Opus 驗證結果才交給使用者。這不是簡單的「讓模型跑久一點」，而是模型在即時設計自己的代理團隊和協作架構。

一個被反覆引用的案例是 Bun 開發者 Jared Sumner。他用 Dynamic Workflows 把整個程式碼庫從 Zig 移植到 Rust，Opus 規劃了遷移方案，啟動數百個子代理，整個過程跑了 11 天，最終產出 75 萬行 Rust 程式碼，通過 99.8% 的測試。開發者 Nick Dobos 對這件事的評價是：「這不只是長時間執行模式，也不只是花俏的子代理驗證流程。這是 Claude 在即時 vibe-coding 出一整支全新的子代理艦隊。這基本上是一個新的 scaling law 維度。」

Anthropic 的 Dixon Sy 稱 Dynamic Workflows 是「2026 年至今最重要的 Claude Code 創新」。創業者 Greg Eisenberg 則從另一個角度描述：「讓我印象最深的是，這些代理會在給你結果之前先互相爭辯。獨立嘗試同一個問題，然後用對抗式代理試著打破答案，一直迭代到收斂為止。這就是資深工程團隊的運作方式，只是這個團隊凌晨三點還在跑，而且永遠不會累。」

估值超越 OpenAI，下一個是 Mythos

在模型發布的同時，Anthropic 還宣布了兩件大事。

第一件是完成 Series H 募資，估值達到 9,650 億美元，正式超越 OpenAI。三個月前的 2 月那輪估值還是 3,800 億美元，等於三個月翻了一倍多。Anthropic 同時更新了營收數字，年化收入（run rate）在 5 月稍早已突破 470 億美元。

第二件事藏在 Opus 4.8 發布文的最後幾段：Anthropic 確認正在開發一個比 Opus 更高層級的模型類別，代號 Mythos。在 Project Glasswing 計畫下，少數組織已經在使用 Claude Mythos Preview 進行網路安全工作。Anthropic 的說法是，這個能力等級的模型需要更強的網路安全防護措施才能全面開放，目前進展很快，預計數週內就會向所有客戶推出。

NLW 認為這可能是整個發布中最重要的消息。即使你對 Opus 4.8 的漸進升級不太興奮，Mythos 的到來意味著接下來幾週會有更大的能力跳躍。但同一個問題仍然存在：一個更強大的模型，如果裝在一個不夠好的工具裡，使用者會選擇它嗎？

AI 的競爭正在從「誰的模型最聰明」轉向「誰的整體體驗最完整」。模型是心臟，但使用者買的是整台車。Anthropic 的心臟可能比 OpenAI 更強，但 OpenAI 目前那台車開起來更順。Dynamic Workflows 是 Anthropic 在底盤和變速箱上的一次大升級，但整台車要追上 Codex 的駕駛體驗，還有路要走。