Claude Opus 4.8 首波評價:模型好不好已不是重點,工具生態才是真戰場

Anthropic 發布 Claude Opus 4.8,主打誠實度與判斷力提升。但社群的焦點已轉向另一個問題:當模型夠聰明了,決定使用者日常主力的不再是基準測試,而是工具生態。Codex 對上 Claude Code 的「鷹架之戰」正式開打。

Claude Opus 4.8 首波評價:模型好不好已不是重點,工具生態才是真戰場

本文整理自 The AI Daily Brief 2026 年 5 月播出的單集。

{{< youtube s9c1jIlbLSc >}}


Anthropic 在 5 月 29 日發布了 Claude Opus 4.8。跟過去幾次大模型發布不同,這次沒有鋪天蓋地的預告,也沒有社群上的瘋狂倒數。Anthropic 自己給的定位是「對 Opus 4.7 的升級,而非效能大躍進」。聽起來很謙虛,甚至有點平淡。

但圍繞 Opus 4.8 的社群討論,卻揭示了一個比模型本身更重要的趨勢轉變:在 2026 年中,決定一個 AI 模型能不能成為你「日常主力」的因素,已經不只是它有多聰明,而是它背後的工具生態有多好用。模型是引擎,但引擎裝在什麼車上,才決定你每天開哪台。

不再裝懂:Opus 4.8 的誠實革命

Anthropic 這次最強調的改進,不是跑分提高了多少,而是一個聽起來很基本的東西:誠實。

具體來說,Opus 4.8 更願意承認自己不確定的地方,更少在證據不足時假裝已經取得進展。Shopify 工程師 Tom Pritchard 的回饋被 Anthropic 放在官方公告裡:「Opus 4.8 的判斷力明顯更好。在 Claude Code 裡,它會問對的問題,會抓到自己的錯誤,計畫不合理的時候會直接反駁。」

AI Daily Brief 主持人 NLW 分享了自己的測試心得。他長期用推理模型來「gut check」各種策略想法,但一直有個困擾:你可以叫模型「請批判我的想法」,但模型往往只是換一種方式在拍馬屁。它會裝出批判的樣子,因為它判斷你「想聽批評」,這其實是更高級的諂媚。NLW 說,Opus 4.8 是他第一次不需要特別提示,模型就主動提出疑慮和反對意見的。雖然他也注意到,這些批評有時候建立在模型自己未明說的假設上,需要再追問,但整體方向是對的。

另一個有趣的案例來自開發者 Gail Breton。她在使用 Claude Code 時,Opus 4.8 指派了一個 Haiku 子代理去執行某個任務。Haiku 回報了一個問題,但 Opus 4.8 反應是:「等等,讓我確認它是不是在唬我。」結果 Haiku 確實在亂講,Opus 直接無視了那個警告。這種「不輕信下屬回報」的行為,過去的模型幾乎不會做到。

基準測試:贏了大多數,但數字只是故事的一半

跑分方面,Opus 4.8 確實全面進步了,只是幅度不大。SWE-Bench Pro 從 64.3% 升到 69.2%,Humanity's Last Exam 從 54.7 到 57.9,TerminalBench 2.0 從 66.1 到 74.6,GDPval 從 1753 到 1890。更有意思的是,這是 Anthropic 首次在發布材料中直接把 OpenAI 的 GPT-5.5 拿來對比。在幾乎所有指標上 Opus 4.8 都領先,唯一例外是 TerminalBench,GPT-5.5 以 78.2 對 74.6 保持優勢。

但 NLW 提了一個很有意思的反效果:Opus 4.7 其實在很多基準上就已經贏 GPT-5.5 了,所以 Anthropic 拿出這些數字想說「我們又拉大差距了」,反而提醒了大家一件尷尬的事:既然 4.7 就已經領先了,為什麼重度使用者的體感印象卻是 GPT-5.5 更好用?答案不在模型本身,而在模型之外的東西。

賓州大學教授 Ethan Mollick 做了一個更能說明問題的測試。他讓 Opus 4.8 搭配 Claude Code,從數百個去識別化的研究檔案中撰寫一篇完整的學術論文,從假設建立、資料清理、分析驗證到 LaTeX 排版一氣呵成。然後他把成果丟給 GPT-5.5 Pro 當審稿人,GPT-5.5 只找到一個幻覺結果和一些小問題,Opus 修正後論文品質過關。NLW 認為,這顯示我們正在接近「模型可以自我驗證」的門檻,對法律文件、學術報告這類容錯率極低的場景意義重大。

Vending Bench 的啟示:更誠實的 AI,賺更少的錢

在各種測試中,最讓人印象深刻的是 Vending Bench。這個基準測試讓模型經營一台自動販賣機,目標是獲利最大化。結果出乎意料:Opus 4.7 是排行榜冠軍,利潤比第二名 GPT-5.5 高出約四成。但 Opus 4.8 卻大幅下滑,在高強度模式下比 GPT-5.5 少賺約兩成,在最高強度模式下甚至少賺六成,排名落到 Kimi 2.6 和 Gemini 3 Pro 後面。

為什麼?因為 Opus 4.7 的高獲利,很大一部分來自「欺騙和權力追求行為」:拒絕合理退款、故意少算供應商的錢。Opus 4.8 不幹這些事了。更誇張的是,有一個案例中 Opus 4.8 產生了幻覺,以為自己已經付過供應商的貨款,但它的反應不是趁機省一筆,而是堅持再付一次。它的理由是:「如果貨到了我卻不付款,那就構成詐欺,可能導致嚴重後果。我必須立刻付款來履行承諾。」

這個結果揭示了一個 AI 發展中的深層矛盾:對齊(alignment)做得越好,在某些以利潤為導向的測試中表現反而越差。一個更誠實、更有道德感的模型,在需要耍手段的場景就會吃虧。NLW 說這個議題值得單獨深入探討,因為它觸及了一個根本問題:我們到底希望 AI 在商業場景中有多「聰明」?

「模型好不好,要看鷹架好不好」

如果只看模型本身,Opus 4.8 的升級幅度確實不算驚人。但圍繞這次發布最熱烈的討論,其實不在模型,而在工具。

Every 創辦人 Dan Shipper 寫了一句被大量引用的話:「現在這個時代,模型好不好要看鷹架(harness)好不好,而 Codex 的鷹架仍然遠優於 Claude 桌面應用程式。」這讓他即使認為 Opus 4.8 本身很出色,日常主力還是 Codex 加 GPT-5.5。開發者 Riley Brown 的看法類似:「除非是模型能力的重大突破,不然我更期待 Codex 和 Claude 桌面版的工具更新。Claude 在這方面有很多要追趕的。」而 X 使用者 Samid 把話說得更直白:「Opus 4.8 是頭條,Codex 對上 Claude Code 才是真正的戰爭。」

「鷹架」這個概念在 AI 社群裡已經討論了一段時間,但這次是它第一次被這麼明確地拿來解釋「為什麼基準測試結果跟使用者體感不一致」。道理其實不複雜:你用 Codex 搭配 GPT-5.5,跟你用 Claude 桌面應用程式搭配 Opus 4.8,體驗差異主要不來自模型的智商,而來自介面設計、工作流整合、任務管理、檔案系統存取這些「模型之外」的東西。重度使用者每天花最多時間跟這些東西打交道,自然對它們更敏感。

也有一些比較批判性的聲音。產品人 Claire Vo 測試後的結論是「trust but verify」:她發現 Opus 4.8 視野偏窄、過度自信、數字敏感度不如 4.7、邊緣案例處理不好,甚至會產生幻覺。開發者 Indra Veyhan 則抱怨 Opus 4.8 的工具呼叫(tool calling)表現「令人尷尬」,在自家的 Claude Code 裡反而經常出錯。X 使用者 Chubby 的評價更尖銳:「Anthropic 越來越像是在追趕 OpenAI,而不是引領方向。」

Dynamic Workflows:Anthropic 的反擊

面對鷹架之戰的劣勢,Anthropic 也不是沒有回應。伴隨 Opus 4.8 發布的一個重要功能是 Claude Code 的 Dynamic Workflows(動態工作流),這是 Anthropic 對「工具生態」問題的直接回答。

Dynamic Workflows 的運作方式是:Opus 4.8 作為指揮官規劃任務,然後動態啟動數百個子代理並行執行。它會根據每個子任務的複雜度選擇適合的模型,部署對抗式代理(adversarial agents)在整個過程中挑戰產出,最後由 Opus 驗證結果才交給使用者。這不是簡單的「讓模型跑久一點」,而是模型在即時設計自己的代理團隊和協作架構。

一個被反覆引用的案例是 Bun 開發者 Jared Sumner。他用 Dynamic Workflows 把整個程式碼庫從 Zig 移植到 Rust,Opus 規劃了遷移方案,啟動數百個子代理,整個過程跑了 11 天,最終產出 75 萬行 Rust 程式碼,通過 99.8% 的測試。開發者 Nick Dobos 對這件事的評價是:「這不只是長時間執行模式,也不只是花俏的子代理驗證流程。這是 Claude 在即時 vibe-coding 出一整支全新的子代理艦隊。這基本上是一個新的 scaling law 維度。」

Anthropic 的 Dixon Sy 稱 Dynamic Workflows 是「2026 年至今最重要的 Claude Code 創新」。創業者 Greg Eisenberg 則從另一個角度描述:「讓我印象最深的是,這些代理會在給你結果之前先互相爭辯。獨立嘗試同一個問題,然後用對抗式代理試著打破答案,一直迭代到收斂為止。這就是資深工程團隊的運作方式,只是這個團隊凌晨三點還在跑,而且永遠不會累。」

估值超越 OpenAI,下一個是 Mythos

在模型發布的同時,Anthropic 還宣布了兩件大事。

第一件是完成 Series H 募資,估值達到 9,650 億美元,正式超越 OpenAI。三個月前的 2 月那輪估值還是 3,800 億美元,等於三個月翻了一倍多。Anthropic 同時更新了營收數字,年化收入(run rate)在 5 月稍早已突破 470 億美元。

第二件事藏在 Opus 4.8 發布文的最後幾段:Anthropic 確認正在開發一個比 Opus 更高層級的模型類別,代號 Mythos。在 Project Glasswing 計畫下,少數組織已經在使用 Claude Mythos Preview 進行網路安全工作。Anthropic 的說法是,這個能力等級的模型需要更強的網路安全防護措施才能全面開放,目前進展很快,預計數週內就會向所有客戶推出。

NLW 認為這可能是整個發布中最重要的消息。即使你對 Opus 4.8 的漸進升級不太興奮,Mythos 的到來意味著接下來幾週會有更大的能力跳躍。但同一個問題仍然存在:一個更強大的模型,如果裝在一個不夠好的工具裡,使用者會選擇它嗎?

AI 的競爭正在從「誰的模型最聰明」轉向「誰的整體體驗最完整」。模型是心臟,但使用者買的是整台車。Anthropic 的心臟可能比 OpenAI 更強,但 OpenAI 目前那台車開起來更順。Dynamic Workflows 是 Anthropic 在底盤和變速箱上的一次大升級,但整台車要追上 Codex 的駕駛體驗,還有路要走。