AI 圈瘋傳那張「12 小時」圖表,多數人讀錯了:METR 親自拆解時間軸圖表的真相

Claude Opus 4.6 衝上 12 小時時間軸的消息點燃了 AI 圈,但 METR 兩位高層在 Odd Lots 親自說明:12 小時不是 AI 自主跑 12 小時的意思。翻倍週期已經從 7 個月縮到 4 個月,但 benchmark 的能力跟真實生產力之間,還有三道沒被多數人注意到的摩擦。

AI 圈瘋傳那張「12 小時」圖表,多數人讀錯了:METR 親自拆解時間軸圖表的真相

本文整理自彭博 Odd Lots 2026 年 4 月播出的單集,主持人 Joe Weisenthal、Tracy Alloway 訪問 METR 總裁 Chris Painter 與技術成員 Joel Becker。

{{< youtube Hx5dIJ3H8p4 >}}

{{< apple-podcast "tw/podcast/understanding-the-most-viral-chart-in-artificial/id1056200096?i=1000763538457" >}}


過去半年,幾乎所有討論 AI 進展的場合,都會出現同一張圖。圖上一條接近垂直的曲線往右上爬,最新的端點寫著 Claude Opus 4.6、12 小時、2026 年 2 月。前一個高點是 OpenAI 的 GPT-5.3 Codex,5 小時 50 分。一個迭代就翻倍。Reddit 上開始有人在這張圖底下問:「我要怎麼投資 OpenAI?」

這張圖叫「時間軸圖表」(Time Horizon Chart),出自一家位於加州柏克萊、只有大約 30 人的研究型非營利組織 METR(Model Evaluation and Threat Research)。它不是哪家投資銀行畫的,也不是 AI 公司自己的行銷素材,但它已經成了業界討論「AI 進步速度」最常被引用的單一證據。

問題是,幾乎每個轉發這張圖的人,都在某種程度上讀錯了。Odd Lots 主持人 Tracy Alloway 在訪問 METR 兩位高層時就直白承認:「我直覺以為自己懂,但開始讀網站上的解釋之後,我越看越糊塗。」這集節目就是 METR 親自把這張圖拆開來,告訴你它真正在量什麼、什麼是它能說的、什麼是它不能說的。

12 小時不是 AI 自主跑 12 小時

主持人 Joe Weisenthal 在訪談一開始就把多數人的誤讀講清楚:「我第一次看到這張圖,跟很多人一樣,以為是說這個 AI 可以自己跑去做一件事 11 小時 59 分鐘,然後拿著答案回來。但顯然不是這個意思。那到底是什麼意思?」

METR 技術成員 Joel Becker 給的定義是這集最該被劃線的一段話。「我們是在畫『AI 能完成的任務難度』隨時間變化的曲線,」他說,「而我們衡量任務難度的方式,是『一個人類完成同樣任務需要多久』。」翻成大白話:12 小時這個數字,描述的是「人類做這件事得花 12 小時」,而 Claude Opus 4.6 在這個難度的任務上,有 50% 的機率成功。它不代表 AI 自己連續跑了 12 小時,也不代表它一定能把任務做完。

這種讀法之所以重要,是因為它把「能力」和「自主性」分開了。模型有沒有能力解一個 12 小時等級的問題,跟它能不能無人監督地連續工作 12 小時,是兩件完全不同的事。多數人在社群媒體上看到這張圖的反應,是把後者塞進前者,然後得出「AI 馬上要取代軟體工程師」的結論。但 METR 量的是前者,後者目前根本還做不到。

那為什麼是「50% 成功率」,而不是更高?這是訪談中第二個常被誤讀的點。Joe 直接質疑:「80% 圖看起來明顯沒有 50% 圖那麼炸裂,為什麼預設要看 50% 那張?」Joel 的回答有點自嘲:「對我自己來說,80% 圖看起來其實一樣炸裂。它的翻倍週期跟 50% 圖差不多,只是整條線往右平移了大約 5 倍的難度差距。換算下來,就是 8 個月之後,今天的 50% 成功率會變成 80% 成功率。」

選 50% 還有更技術性的原因。在統計上,分布在 50% 附近最厚,最少受標籤雜訊影響。如果你想精確估計 99% 的成功率,只要任務評分有 1% 的噪音,數字就完全不可靠。50% 是訊噪比最高的點。Chris Painter 補了一個更直觀的說法:「給我一個任務和一個模型,我只知道人類要花多久,那 50% 時間軸就是『我猜這個模型有沒有可能做成』的分水嶺。」

翻倍週期從 7 個月縮成 4 個月

如果說 12 小時這個絕對數字容易被誤讀,那訪談中真正讓人坐直的,是另一個相對數字:能力翻倍的速度,比一年前 METR 自己估的還要快。

「我以前是『七個月翻倍派』,」Joel 在被 Tracy 追問時直接坦承,「我們團隊內部為這件事吵過。」一年前 METR 第一次發表這份研究時,如果你拉一條直線通過所有資料點,得到的是六到七個月翻倍。但如果只取 GPT-4o 之後(大約 2024 年中起)的資料,曲線斜率會陡得多,比較像是四個月翻倍。Joel 自己當初站在前者:「我覺得我們資料點太少了,應該用更多資料來估,那就是七個月。」

讓他改口的,是接下來這一年陸續發布的新模型。「每次有新模型出來,我們都會看:哪一條趨勢線預測得比較準?答案非常清楚,就是四個月那條。」他甚至覺得未來可能還會再加速一次。原因之一是各家 AI 實驗室現在的優化壓力高度集中在程式設計和 ML 任務上,OpenAI 都把 Sora 影片生成那條線收掉了,資源更集中地往 METR 在量的那個能力堆。

這個加速的意義在哪裡?Joe 在收尾的對話中講了一句很妙的話:「七個月跟四個月翻倍,差別到底有多大?感覺像在爭『AI 兩年內會消滅所有白領工作』還是『三年內會消滅所有白領工作』,根本沒差。」Tracy 立刻提醒他:「但這是指數,不是線性。」這句提醒值得在心裡多停一下。指數成長的差距會迅速放大,七個月翻倍跟四個月翻倍,三年後拉開的距離不是 50%,是好幾倍。

更關鍵的是,這條曲線之所以幾乎沒有人預期會在短期內趨緩,跟另一條曲線高度同步:算力研發的支出。Joel 提到一個讓他自己也覺得不可思議的事實:「前沿實驗室在算力上的研發支出,是以指數成長,而且斜率幾乎跟時間軸圖表一模一樣。」更要命的是,2027 到 2028 年的資料中心已經簽了約、開了工,這些算力的承諾基本上都已經「鎖在桌上」。要時間軸圖表趨緩,唯一的可能是算力之外的其他輸入(資料、演算法、人才)出現瓶頸。

人類基準怎麼定?三個工程師、按時計酬的隱憂

要畫出這張圖,METR 必須先回答一個更基本的問題:怎麼定義「一個任務值多少小時」?答案是花錢請人類做。Joel 描述方法論時很坦率:「我們挑出有相關專業的人,軟體工程任務找軟體工程師、ML 任務找 ML 研究員,給他們跟 AI 一樣的工具和條件,計時看他們完成要多久。然後把這個平均時間,當作這個任務的『難度』。」

問題出在「平均」這個字。每個任務的人類基準大約只有三位。Tracy 立刻問了一個敏感的問題:「樣本數會不會太小?而且,找人類工程師來跟 Claude Opus 4.6 比,會不會越來越難?」Joel 的回答帶點哀傷:「我自己就跟你差不多。」不過他補充,最終數字對單一基準的選擇其實沒那麼敏感。如果換掉一兩個基準者,估出來的時間軸可能會差一倍,但翻倍週期不會變,曲線斜率還是同一條。

但 Joe 接著丟了一個更尖銳的批評。Substack 上有篇叫〈Against the Meter Graph〉的文章(作者 Nathan Witkin),點出了一個明顯的利益衝突:「你按時付錢請軟體工程師來做這個任務,那他們有什麼動機要快?拖越久,賺越多。」Joel 承認這個批評有道理,但 METR 的做法是按任務計酬,而且設了獎金:完成時間比同儕快的人,可以拿到額外獎勵。「這某種程度上把誘因反過來了,」他說,「你越快越賺。」

Joel 接下來這段話,是這集裡最出乎意料也最值得記下的一段自我批評。「我有一個懷疑,」他說,「METR 在量的那些任務,可能越來越是『一小片狹窄的任務分布』。而且這片任務分布,可能跟那些大型 AI 公司本來就在拿來訓練模型的任務分布越來越像。」白話翻譯:METR 量的能力進步,部分可能來自「測什麼就教什麼」的效應。AI 公司知道時間軸圖表在量這類任務,就更專心優化這類任務,於是分數越來越漂亮。這條曲線描述的進步是真的,但它能不能完全推廣到「真實世界」的任務分布,Joel 自己留了一個誠實的問號。

benchmark 不等於真實生產力的三道摩擦

這個問號連著訪談中最實用的一段:為什麼 benchmark 上看起來那麼強的模型,落到真實工作場域,產出感覺不像「12 小時人類等級」?Joel 拆出三個原因,這是任何一個正在用 Claude Code 或 Codex 寫程式的工程師應該認真讀的部分。

第一道摩擦是評分方式不一樣。METR 的任務評分是演算法式、自動化的,通過就是通過,失敗就是失敗。但真實世界的程式碼,老闆和同事評的是「程式品質好不好」「有沒有貼合團隊規範」「優不優雅」。Tracy 開玩笑說:「就是『如果 Anna Wintour 寫程式,她寫出來的樣子』。」這種整體性、品味性的評分,benchmark 完全沒辦法捕捉。模型可能在 benchmark 上 90% 通過率,落到實戰可能只有 60% 被同事接受。

第二道摩擦是真實任務本身就比較髒亂。Benchmark 任務通常邊界清楚、目標明確、可在沙箱裡執行。真實任務則是要在十幾萬行的程式碼庫裡找到該改的地方、要跟其他人協作、要承受其他工程師同時改動同一段程式碼的「對抗性」干擾。Joel 形容:「AI 在這類比較髒亂的問題上,能力會打折,雖然不是大幅打折。」

第三道摩擦最微妙,但可能最致命:可靠度低於 100%,會帶來驗證成本。如果某類任務的成功率只有 80%,每一次模型給你輸出,你都得回頭驗證它做對了沒有。而驗證一段別人寫的程式碼,往往比自己寫一遍還累,因為你沒有對方寫程式時的脈絡。Joel 把這個現象稱為「verification step」,他說:「這就是為什麼 benchmark 上看起來很大的能力提升,落到實際生產力的提升會打折扣。」

這三道摩擦把問題重新框定了。時間軸圖表的斜率是一回事,這個能力轉換成「老闆願意付錢買的工作成果」是另一回事。前者目前看起來不會慢下來,後者則涉及程式品味、團隊規範、可靠度門檻、人類驗證流程的整體升級。對在企業裡導入 AI 工具的人來說,這意味著「benchmark 更新到 12 小時」跟「我們團隊的軟體交付速度提升一倍」之間,有一段需要自己補上的距離。

為什麼中國模型不在主圖上

訪談中最容易被忽略、但對台灣讀者特別重要的一段,是中國模型的處境。Tracy 直接問:「Qwen 沒有出現在你們的主圖上,你們是不是只做過初步評估?閉源美國模型跟開源中國模型,評估方式上有什麼不一樣?」

Joel 的答案很直接:「中國模型的能力是落後的。我們的判斷是,它們大約落後美國前沿模型 9 到 12 個月。」緊接著的後半段更刺:「而且這個落差,從時間軸圖表來看,可能比 benchmark 分數呈現的還要大。」Tracy 馬上抓到言下之意:「你的意思是,它們在『刷分』?」Joel 沒有把話說死,但確認了「精神上接近」這個說法:中國模型在 benchmark 上的表現,可能比它們在真正未見過的問題上實際表現要強。

這個評估有幾個層次值得拆開看。首先,9 到 12 個月在指數成長的曲線上,差距不是線性的。如果美國模型每四個月翻倍,落後 12 個月就等於落後 3 個翻倍週期,能力差距是 8 倍。DeepSeek 在春天的新版本讓全市場震一下、Qwen 在開源圈被當成「中國 OpenAI」,但從 METR 的角度,這些都還沒有觸到前沿。Joel 提到 METR 因為人力有限,「我們會優先評估我們預期會在前沿的模型。」這隱含的意思是:今天的中國模型,還沒值得 METR 把寶貴的評估能量分配上去。

但這個說法本身也有風險。METR 自己承認團隊只有 30 人,他們能處理的任務分布、模型範圍都很窄。「我們在腦力激盪 20、30 個我們覺得世界等級的重要問題,但每一季實際能做的研究大概只有一到三個。」這意味著「中國模型不在主圖上」這件事,部分是因為它們真的落後,部分也是因為 METR 沒人手去仔細測。對於關心中美 AI 落差的台灣讀者來說,這不是一個能完全採信、也不是能完全不採信的判斷。它是一個有方向但帶誤差的指針。

對台灣產業來說,這段話的實務意義是:如果你的決策(採購哪家模型、跟哪邊的供應鏈合作、要不要押注本土模型)建立在「中國 AI 已經追上美國」的假設上,至少要把 METR 這個視角放進來對照。同時,當下次 DeepSeek 或 Qwen 又拋出一個「超越 GPT-X」的 benchmark 時,要記得 Joel 這句保留:在真正未見過的問題上,數字可能沒那麼漂亮。

這張圖真正值得記住的,不是 12 小時

回到一開始那個被 Reddit 網友問的問題:看到這張圖,要怎麼投資?

訪談聽到後段,會發現 METR 自己對這張圖的定位,跟外界的解讀有相當大的落差。對 METR 來說,它存在的目的不是給投資人看 AI 多強,而是回答一個更根本的問題:什麼時候,AI 系統會自主到讓「失控」這件事從哲學辯論變成可量化的風險?時間軸圖表是這個更大研究議程的一個副產品,因為它把「自主性」這個抽象詞,綁定到一個具體可量的東西,就是「人類做這件事要花多久」。

但對作為讀者的我們,這集訪談留下的最有用的提醒,不是 12 小時這個數字,而是這張圖的斜率本身。翻倍週期從七個月縮到四個月、跟算力支出指數同步成長、未來兩年的算力承諾已經鎖在桌上、各家實驗室還在加碼集中火力到這個方向。這些事情合起來告訴你,至少在 2026 到 2028 這段時間,這條線不太可能走平。

至於它真實對應到「能取代多少人類工作」的程度,那就是 Joel 拆出的那三道摩擦要回答的問題:評分方式、髒亂任務、可靠度成本。這三道摩擦會被打破嗎?Joel 自己的判斷是會,只是時間。而當這三道摩擦也跟時間軸圖表一樣往上突破的時候,那才是真正值得整個社會坐下來重新討論的時刻。

在那之前,看到這張圖,先記住兩件事:12 小時不是 AI 自己跑 12 小時,而中國模型不在圖上,不只是因為它們落後。