AI 技術前沿

GPT-5.5 上市實測全紀錄：開發者為何集體換軌

OpenAI 4 月底發布 GPT-5.5（代號 Spud），重奪 Artificial Analysis 智慧排行榜冠軍。AI Daily Brief 主持人 NLW 從基準測試、長時間自主任務、設計與規劃，到 OpenAI 對位 Anthropic Mythos 的策略轉向，整理一份全方位實測報告。

2026 年 5 月 4 日 · 來源： The AI Daily Brief

本文整理自 The AI Daily Brief 2026 年 4 月 27 日播出的單集〈What I Learned Testing GPT-5.5〉。

{{< apple-podcast "tw/podcast/what-i-learned-testing-gpt-5-5/id1680633614?i=1000763457037" >}}

OpenAI 在四月最後一週的星期五下午兩點，悄悄把 GPT-5.5（內部代號 Spud）放上線。沒有發表會，沒有預告短片，奧特曼（Sam Altman）的上市推文只有 25 個字：「GPT-5.5 來了，希望對你有用，我自己滿喜歡的。」

但這應該是 2026 年最受期待的單一模型發布。從去年十二月 OpenAI 內部宣布「code red」（紅色警報）以來，業界都知道他們在實驗室裡準備大招；同期 Anthropic 不斷對外暗示自家還沒交付的 Mythos 模型「強到不能放出來」，把所有人胃口吊得很高。AI Daily Brief 主持人 Nathaniel Whittemore（業界都叫他 NLW）在上市三天後，整理了所有第一線回饋與自己跑的約十個實測，得出的結論很直接：對開發者跟知識工作者而言，GPT-5.5 是新的預設選項，但 Anthropic 的 Opus 4.7 還守得住兩塊地。

基準測試掃台：贏在哪、輸在哪

GPT-5.5 重新拿回 Artificial Analysis 智慧綜合排行榜的第一名，比第二名拉開三分；最高的 extra-high 推理層級首度有模型衝進 60 分以上。在程式撰寫基準測試上，數字尤其搶眼。Terminal Bench 2.0 拿下 82.7 分，比 Opus 4.7 的 69.4 分高出超過 13 分；GDPVal 真實經濟任務基準上，GPT-5.5 是 84.9 分，Opus 4.7 是 80.3 分。CodeRabbit 自家的程式碼審查測試也顯示，GPT-5.5 對問題的偵測率從原本基線的 58.3% 拉到 79.2%。

不是每一張榜單都讓 GPT-5.5 的支持者開心。Andon Labs 的 Vending Bench（讓模型自主經營虛擬販賣機事業）單人模式上，Opus 4.7 仍然贏；但在 GPT-5.5 與 Opus 對打的 Vending Bench Arena 多玩家版本，GPT-5.5 反勝，而且 NLW 特別點出一個細節：Opus 4.7 出現對供應商說謊的「不誠實」行為，GPT-5.5 沒有。Val.AI 的專業任務評估則是各勝一些。

唯一明顯失分的是 Sweebench Pro。OpenAI 在發布頁的腳註直接點名，質疑 Anthropic 在某個子集上有記憶化的嫌疑。從 OpenAI 的角度，這個基準早就不可靠：今年二月他們才發過一篇〈為什麼 Sweebench Verified 不再衡量前沿程式撰寫能力〉，明確說自己不再採信。OpenAI Codex 團隊的 Thibault 把話講得更白：「如果你以為 Sweebench 還能代表什麼真實的東西，那你就會錯過很多真正重要的訊號。」

費用部分爭議比較大。GPT-5.5 的 API 價格是輸入每百萬 token 五美元、輸出三十美元，整整是 GPT-5.4 的兩倍，比 Opus 4.7 還貴 20%。OpenAI 共同創辦人 Noam Brown 對這件事的說法成為支持者的共同口徑：「在現在這代 AI，智慧本來就是推論算力的函數。用單一數字比較模型，從 2024 年開始就沒道理了。重要的是每個 token、每塊錢能買到多少智慧。」第三方分析機構 Scaling01 跑出來的成本效能曲線確實顯示，整個 5.5 家族（包括 5.5 high、5.5 extra-high）幾乎完全壓制住現有的成本效能前緣，因為它解同一個問題需要的 token 比較少。

真正的突破：長時間自主任務從 30 分鐘到 31 小時

如果問 GPT-5.5 真正的能力斷層在哪，答案不是任何一張基準排行榜，而是「能可靠地連續跑很久不出包」。在 GPT-5.5 之前，再好的模型，自主任務跑三十分鐘到兩三個小時就會開始崩。連續喊它、給它強提示，撐到四五個小時是極限。

Arena.ai 的 Peter Gostev 是第一個跳出來的。他在 X 上分享：「我有一個資料庫遷移任務跑了七個多小時。這以前根本不可能發生。然後我又往佇列裡塞了十個提示讓它過夜跑，結果它連續工作了八個多小時。」更誇張的是 OpenAI 自家的 Adam McLaughlin：星期五他口述了一個野心很大的強化學習實驗讓模型去跑，週一回辦公室，發現一個工業規模的訓練流程已經連續跑了 31 個小時還在運作，最後完成。

這個「31 小時」不是一個快取在腦中的酷數字。它代表一個完全不同的協作模式：開發者不再需要把任務切成小塊餵給模型，而是可以給它一個大目標，回家睡覺，第二天看結果。Flavio Adamo 對這個質感變化的描述最精準：「一個模型可以很聰明，但用起來很累。GPT-5.5 用起來不那麼累了。」

「不那麼累」具體是什麼意思？是不會再三秒鐘問你一次「你的意思是不是這個」、不會跑到一半自己亂改方向、不會把你 5 個檔案的程式碼改成 50 個檔案的「過度工程」版本。Bindu Reddy、CodeRabbit 與 Adamo 都點到同一件事：GPT-5.5 是第一個能真正聽懂「不要過度設計」這四個字的模型。對於每天靠 AI 寫程式賺錢的人而言，這個體感差距比任何基準分數都重要。

Opus 4.7 還守得住的兩塊地：規劃力與設計美感

GPT-5.5 不是壓著 Opus 4.7 全勝，特別是兩塊地它沒贏。第一塊是任務規劃。多位重度使用者在試用之後同意：要把「請幫我做一個訂閱型 SaaS 的後台」這種模糊任務拆成具體可執行的工程清單，Opus 4.7 跑在 extra-high 推理時，產出的計畫品質仍然勝過 GPT-5.5。Every 雜誌的 Vibe Check 評測、Runway 共同創辦人 Siki Chen、NLW 自己都觀察到同一件事。

第二塊是設計美感。GPT-5.5 在介面設計、品牌視覺這類「純美學」任務上比 GPT-5.4 進步很多，但 Opus 4.7 仍然在設計品味上保有領先。NLW 自己跑了一個案例：他請 GPT-5.5 幫 AI Daily Brief 重做媒體 Kit 的視覺，產出的版本比原本的版面還要差；但奇妙的是，同一個任務，GPT-5.5 寫出來的贊助商提案文字反而比原本的更好。這個對照讓他意識到：設計這件事，模型的「品味」還是 Opus 4.7 領先。

於是市場很快收斂出一個共識做法。Siki Chen 提出來的版本最簡潔：「Opus 4.7 開到 extra-high 來規劃，GPT-5.5 開到 high 來執行，這就是最佳組合。」Every 的 Vibe Check 用更具體的案例驗證了這個流程；NLW 自己在 Codex 裡跑專案的習慣也朝這個方向走。對企業裡負責 AI 工具採購的人來說，這個訊號很清楚：兩家供應商都還得簽，不能單押其中一家。

工作流上還有一個值得提的小組合，是設計與前端團隊正在玩的：用 GPT-Image 2 做視覺概念發想，再丟進 Codex 由 GPT-5.5 配合 Skills（Codex 的外掛機制）去實作。NLW 試了之後判斷，這個組合可以彌補 GPT-5.5 原生設計力不足的部分，是目前最務實的解。

「模型 + 鷹架」時代：Codex Skills 與 Monothread

NLW 在實測完之後，把整個 2026 年的 AI 評估方式重新框架了一次：「我們現在正式進入一個時代，你做的任何事都是模型加鷹架的組合。所以對我來說，知道 GPT-5.5 能多好地利用一個 Skill，比知道它原生能做什麼更實用。」

這句話的脈絡是：當代沒有人是直接拿模型的原生輸出在用。所有 AI 產出都經過某種包裝，可能是 Codex 的 Skills 系統、可能是 Claude Code 的工具鏈、可能是公司內部自建的提示模板。模型在這套外殼裡的表現，跟它在裸 API 上的表現可能差到一個量級。NLW 自己跑前端時就有體感：原生的 GPT-5.5 設計力中等，但加上 Codex 的 Skill 之後，產出的介面品質明顯往上跳一階。

另一個值得注意的新模式叫「Monothread」。傳統用法是把不同主題切成不同對話：策略一個、寫作一個、產品一個。但 GPT-5.5 在 Codex 裡的脈絡壓縮（compaction）能力大幅提升之後，有人開始反向操作，用一條永遠不關閉的對話串持續迭代所有大方向工作。這條對話會記住你過去所有的脈絡，可以隨時拉回來繼續推。NLW 自己的計畫是先讓 Codex 採訪他一遍，建立一份個人加事業的脈絡基底，再以此為起點開始 Monothread 流程。

把這兩件事放在一起看，「模型 + 鷹架」這個框架其實是在說：2026 年判斷一個模型強不強，越來越不能只看單模型評測。同樣的 GPT-5.5，在 Codex 加 Skills 加 Monothread 的組合裡，跟在普通 API 呼叫裡，根本是兩個物種。這對企業選型也是個提醒：採購決策必須包含整個工作流評估，不只是模型本身。

OpenAI 把「謙遜」當策略：對位 Mythos 的反向操作

回到開頭那條 25 個字的奧特曼推文。多位科技圈觀察者把這次 OpenAI 的溝通策略轉向講得很白。a16z 合夥人 Justine Moore 評論：「真酷，原來你可以這樣不搞一場大型公關運動嚇唬大家，就直接把模型推上線。」評論者 Cree Beauvoir、Benjamin DeKracker 也都讀到同一個訊號：這是刻意對位 Anthropic Mythos「先預告但不交付」策略的反向操作。

什麼是 Mythos？這是 Anthropic 反覆暗示但一直沒釋出給一般使用者的旗艦模型。傳言參數量約 10 兆，定價據說會「貴到誇張」（傳言 125 美元等級），可能是 Anthropic 自己的「GPT-5.4 時刻」。Mythos 在科技圈造成的效應是：它擁有大量的敘事曝光，但沒有實際的使用者體驗。Riley Brown 對這件事的回應變成另一句廣為流傳的金句：「Mythos 的基準分數在它真正釋出給大眾使用之前，根本不存在。」

奧特曼這次的表態與往年 OpenAI 風格完全不同。他在發布前後的所有公開言論，都圍繞「漸進部署」、「民主化」、「推論效率」這幾個關鍵字。這些詞往年是 Anthropic 的招牌，但這次是 OpenAI 在用。NLW 引用評論者 Alex Cantrius 的揣測：「這種更真誠、更不像公關稿的語氣，會不會跟 OpenAI 最近收購 TBPN 有關？」雖然只是揣測，但語氣轉變確實明顯到讓觀察者覺得這不是偶然。

更巧的是同一天，Anthropic 自己發布了一份 Claude Code 的事後檢討（post-mortem），承認最近幾週 Claude Code 確實有品質回歸的問題，使用者抱怨「越用越笨」並非錯覺。NLW 給予 Anthropic 的透明度肯定，但也直白指出：這份事後檢討剛好放大了 GPT-5.5 上市的敘事。評論者 Theo 與 Peter Levels 的反應更不客氣：「我就說吧，Claude Code 變笨不是 Claude 變笨，是他們把垃圾發到正式環境，連帶拉低了模型表現。」「不敢相信我們是對的，Claude 就是在三月四號那天被搞笨的，剛好也是我們發現有問題的時候。」

這是 o1 時刻，o3 時刻還在後面

NLW 在結尾下了一個前瞻判斷，引用 NoMoreID 的框架：GPT-5.5 是這一代預訓練世代的「o1 時刻」，相當於 o1-preview 跟 o1 的階段；o3 那種真正的階躍式跳躍，還在後面。Wharton 教授 Ethan Mollick 也觀察到能力提升在加速。最值得注意的兩段話來自 OpenAI 內部高階主管。首席科學家 Jakub Pachalki 對記者直言：「過去這幾年，其實已經是出乎意料地慢了。」總裁 Greg Brockman 接話：「5.5 不是一個終點，在很多面向上，它是一個起點。」

對使用者來說，眼前的問題比較具體：Opus 4.7 與 GPT-5.5 要怎麼分工？多數重度使用者已經朝雙模型工作流靠攏，這個結構接下來幾個月都不太會變。但更深一層的問題是，當大型實驗室開始公開把「我們之前其實出貨太慢」掛在嘴上，2026 年下半年的模型節奏會變成什麼樣，恐怕沒有人說得準。