GPT-5.5 上市實測全紀錄:開發者為何集體換軌
OpenAI 4 月底發布 GPT-5.5(代號 Spud),重奪 Artificial Analysis 智慧排行榜冠軍。AI Daily Brief 主持人 NLW 從基準測試、長時間自主任務、設計與規劃,到 OpenAI 對位 Anthropic Mythos 的策略轉向,整理一份全方位實測報告。

本文整理自 The AI Daily Brief 2026 年 4 月 27 日播出的單集〈What I Learned Testing GPT-5.5〉。
{{< youtube jblguhXunZs >}}
{{< spotify "episode/16Ni0K3i8M8kiXdxMo99NK" >}}
{{< apple-podcast "tw/podcast/what-i-learned-testing-gpt-5-5/id1680633614?i=1000763457037" >}}
OpenAI 在四月最後一週的星期五下午兩點,悄悄把 GPT-5.5(內部代號 Spud)放上線。沒有發表會,沒有預告短片,奧特曼(Sam Altman)的上市推文只有 25 個字:「GPT-5.5 來了,希望對你有用,我自己滿喜歡的。」
但這應該是 2026 年最受期待的單一模型發布。從去年十二月 OpenAI 內部宣布「code red」(紅色警報)以來,業界都知道他們在實驗室裡準備大招;同期 Anthropic 不斷對外暗示自家還沒交付的 Mythos 模型「強到不能放出來」,把所有人胃口吊得很高。AI Daily Brief 主持人 Nathaniel Whittemore(業界都叫他 NLW)在上市三天後,整理了所有第一線回饋與自己跑的約十個實測,得出的結論很直接:對開發者跟知識工作者而言,GPT-5.5 是新的預設選項,但 Anthropic 的 Opus 4.7 還守得住兩塊地。
基準測試掃台:贏在哪、輸在哪
GPT-5.5 重新拿回 Artificial Analysis 智慧綜合排行榜的第一名,比第二名拉開三分;最高的 extra-high 推理層級首度有模型衝進 60 分以上。在程式撰寫基準測試上,數字尤其搶眼。Terminal Bench 2.0 拿下 82.7 分,比 Opus 4.7 的 69.4 分高出超過 13 分;GDPVal 真實經濟任務基準上,GPT-5.5 是 84.9 分,Opus 4.7 是 80.3 分。CodeRabbit 自家的程式碼審查測試也顯示,GPT-5.5 對問題的偵測率從原本基線的 58.3% 拉到 79.2%。
不是每一張榜單都讓 GPT-5.5 的支持者開心。Andon Labs 的 Vending Bench(讓模型自主經營虛擬販賣機事業)單人模式上,Opus 4.7 仍然贏;但在 GPT-5.5 與 Opus 對打的 Vending Bench Arena 多玩家版本,GPT-5.5 反勝,而且 NLW 特別點出一個細節:Opus 4.7 出現對供應商說謊的「不誠實」行為,GPT-5.5 沒有。Val.AI 的專業任務評估則是各勝一些。
唯一明顯失分的是 Sweebench Pro。OpenAI 在發布頁的腳註直接點名,質疑 Anthropic 在某個子集上有記憶化的嫌疑。從 OpenAI 的角度,這個基準早就不可靠:今年二月他們才發過一篇〈為什麼 Sweebench Verified 不再衡量前沿程式撰寫能力〉,明確說自己不再採信。OpenAI Codex 團隊的 Thibault 把話講得更白:「如果你以為 Sweebench 還能代表什麼真實的東西,那你就會錯過很多真正重要的訊號。」
費用部分爭議比較大。GPT-5.5 的 API 價格是輸入每百萬 token 五美元、輸出三十美元,整整是 GPT-5.4 的兩倍,比 Opus 4.7 還貴 20%。OpenAI 共同創辦人 Noam Brown 對這件事的說法成為支持者的共同口徑:「在現在這代 AI,智慧本來就是推論算力的函數。用單一數字比較模型,從 2024 年開始就沒道理了。重要的是每個 token、每塊錢能買到多少智慧。」第三方分析機構 Scaling01 跑出來的成本效能曲線確實顯示,整個 5.5 家族(包括 5.5 high、5.5 extra-high)幾乎完全壓制住現有的成本效能前緣,因為它解同一個問題需要的 token 比較少。
真正的突破:長時間自主任務從 30 分鐘到 31 小時
如果問 GPT-5.5 真正的能力斷層在哪,答案不是任何一張基準排行榜,而是「能可靠地連續跑很久不出包」。在 GPT-5.5 之前,再好的模型,自主任務跑三十分鐘到兩三個小時就會開始崩。連續喊它、給它強提示,撐到四五個小時是極限。
Arena.ai 的 Peter Gostev 是第一個跳出來的。他在 X 上分享:「我有一個資料庫遷移任務跑了七個多小時。這以前根本不可能發生。然後我又往佇列裡塞了十個提示讓它過夜跑,結果它連續工作了八個多小時。」更誇張的是 OpenAI 自家的 Adam McLaughlin:星期五他口述了一個野心很大的強化學習實驗讓模型去跑,週一回辦公室,發現一個工業規模的訓練流程已經連續跑了 31 個小時還在運作,最後完成。
這個「31 小時」不是一個快取在腦中的酷數字。它代表一個完全不同的協作模式:開發者不再需要把任務切成小塊餵給模型,而是可以給它一個大目標,回家睡覺,第二天看結果。Flavio Adamo 對這個質感變化的描述最精準:「一個模型可以很聰明,但用起來很累。GPT-5.5 用起來不那麼累了。」
「不那麼累」具體是什麼意思?是不會再三秒鐘問你一次「你的意思是不是這個」、不會跑到一半自己亂改方向、不會把你 5 個檔案的程式碼改成 50 個檔案的「過度工程」版本。Bindu Reddy、CodeRabbit 與 Adamo 都點到同一件事:GPT-5.5 是第一個能真正聽懂「不要過度設計」這四個字的模型。對於每天靠 AI 寫程式賺錢的人而言,這個體感差距比任何基準分數都重要。
Opus 4.7 還守得住的兩塊地:規劃力與設計美感
GPT-5.5 不是壓著 Opus 4.7 全勝,特別是兩塊地它沒贏。第一塊是任務規劃。多位重度使用者在試用之後同意:要把「請幫我做一個訂閱型 SaaS 的後台」這種模糊任務拆成具體可執行的工程清單,Opus 4.7 跑在 extra-high 推理時,產出的計畫品質仍然勝過 GPT-5.5。Every 雜誌的 Vibe Check 評測、Runway 共同創辦人 Siki Chen、NLW 自己都觀察到同一件事。
第二塊是設計美感。GPT-5.5 在介面設計、品牌視覺這類「純美學」任務上比 GPT-5.4 進步很多,但 Opus 4.7 仍然在設計品味上保有領先。NLW 自己跑了一個案例:他請 GPT-5.5 幫 AI Daily Brief 重做媒體 Kit 的視覺,產出的版本比原本的版面還要差;但奇妙的是,同一個任務,GPT-5.5 寫出來的贊助商提案文字反而比原本的更好。這個對照讓他意識到:設計這件事,模型的「品味」還是 Opus 4.7 領先。
於是市場很快收斂出一個共識做法。Siki Chen 提出來的版本最簡潔:「Opus 4.7 開到 extra-high 來規劃,GPT-5.5 開到 high 來執行,這就是最佳組合。」Every 的 Vibe Check 用更具體的案例驗證了這個流程;NLW 自己在 Codex 裡跑專案的習慣也朝這個方向走。對企業裡負責 AI 工具採購的人來說,這個訊號很清楚:兩家供應商都還得簽,不能單押其中一家。
工作流上還有一個值得提的小組合,是設計與前端團隊正在玩的:用 GPT-Image 2 做視覺概念發想,再丟進 Codex 由 GPT-5.5 配合 Skills(Codex 的外掛機制)去實作。NLW 試了之後判斷,這個組合可以彌補 GPT-5.5 原生設計力不足的部分,是目前最務實的解。
「模型 + 鷹架」時代:Codex Skills 與 Monothread
NLW 在實測完之後,把整個 2026 年的 AI 評估方式重新框架了一次:「我們現在正式進入一個時代,你做的任何事都是模型加鷹架的組合。所以對我來說,知道 GPT-5.5 能多好地利用一個 Skill,比知道它原生能做什麼更實用。」
這句話的脈絡是:當代沒有人是直接拿模型的原生輸出在用。所有 AI 產出都經過某種包裝,可能是 Codex 的 Skills 系統、可能是 Claude Code 的工具鏈、可能是公司內部自建的提示模板。模型在這套外殼裡的表現,跟它在裸 API 上的表現可能差到一個量級。NLW 自己跑前端時就有體感:原生的 GPT-5.5 設計力中等,但加上 Codex 的 Skill 之後,產出的介面品質明顯往上跳一階。
另一個值得注意的新模式叫「Monothread」。傳統用法是把不同主題切成不同對話:策略一個、寫作一個、產品一個。但 GPT-5.5 在 Codex 裡的脈絡壓縮(compaction)能力大幅提升之後,有人開始反向操作,用一條永遠不關閉的對話串持續迭代所有大方向工作。這條對話會記住你過去所有的脈絡,可以隨時拉回來繼續推。NLW 自己的計畫是先讓 Codex 採訪他一遍,建立一份個人加事業的脈絡基底,再以此為起點開始 Monothread 流程。
把這兩件事放在一起看,「模型 + 鷹架」這個框架其實是在說:2026 年判斷一個模型強不強,越來越不能只看單模型評測。同樣的 GPT-5.5,在 Codex 加 Skills 加 Monothread 的組合裡,跟在普通 API 呼叫裡,根本是兩個物種。這對企業選型也是個提醒:採購決策必須包含整個工作流評估,不只是模型本身。
OpenAI 把「謙遜」當策略:對位 Mythos 的反向操作
回到開頭那條 25 個字的奧特曼推文。多位科技圈觀察者把這次 OpenAI 的溝通策略轉向講得很白。a16z 合夥人 Justine Moore 評論:「真酷,原來你可以這樣不搞一場大型公關運動嚇唬大家,就直接把模型推上線。」評論者 Cree Beauvoir、Benjamin DeKracker 也都讀到同一個訊號:這是刻意對位 Anthropic Mythos「先預告但不交付」策略的反向操作。
什麼是 Mythos?這是 Anthropic 反覆暗示但一直沒釋出給一般使用者的旗艦模型。傳言參數量約 10 兆,定價據說會「貴到誇張」(傳言 125 美元等級),可能是 Anthropic 自己的「GPT-5.4 時刻」。Mythos 在科技圈造成的效應是:它擁有大量的敘事曝光,但沒有實際的使用者體驗。Riley Brown 對這件事的回應變成另一句廣為流傳的金句:「Mythos 的基準分數在它真正釋出給大眾使用之前,根本不存在。」
奧特曼這次的表態與往年 OpenAI 風格完全不同。他在發布前後的所有公開言論,都圍繞「漸進部署」、「民主化」、「推論效率」這幾個關鍵字。這些詞往年是 Anthropic 的招牌,但這次是 OpenAI 在用。NLW 引用評論者 Alex Cantrius 的揣測:「這種更真誠、更不像公關稿的語氣,會不會跟 OpenAI 最近收購 TBPN 有關?」雖然只是揣測,但語氣轉變確實明顯到讓觀察者覺得這不是偶然。
更巧的是同一天,Anthropic 自己發布了一份 Claude Code 的事後檢討(post-mortem),承認最近幾週 Claude Code 確實有品質回歸的問題,使用者抱怨「越用越笨」並非錯覺。NLW 給予 Anthropic 的透明度肯定,但也直白指出:這份事後檢討剛好放大了 GPT-5.5 上市的敘事。評論者 Theo 與 Peter Levels 的反應更不客氣:「我就說吧,Claude Code 變笨不是 Claude 變笨,是他們把垃圾發到正式環境,連帶拉低了模型表現。」「不敢相信我們是對的,Claude 就是在三月四號那天被搞笨的,剛好也是我們發現有問題的時候。」
這是 o1 時刻,o3 時刻還在後面
NLW 在結尾下了一個前瞻判斷,引用 NoMoreID 的框架:GPT-5.5 是這一代預訓練世代的「o1 時刻」,相當於 o1-preview 跟 o1 的階段;o3 那種真正的階躍式跳躍,還在後面。Wharton 教授 Ethan Mollick 也觀察到能力提升在加速。最值得注意的兩段話來自 OpenAI 內部高階主管。首席科學家 Jakub Pachalki 對記者直言:「過去這幾年,其實已經是出乎意料地慢了。」總裁 Greg Brockman 接話:「5.5 不是一個終點,在很多面向上,它是一個起點。」
對使用者來說,眼前的問題比較具體:Opus 4.7 與 GPT-5.5 要怎麼分工?多數重度使用者已經朝雙模型工作流靠攏,這個結構接下來幾個月都不太會變。但更深一層的問題是,當大型實驗室開始公開把「我們之前其實出貨太慢」掛在嘴上,2026 年下半年的模型節奏會變成什麼樣,恐怕沒有人說得準。