AI 技術前沿

AI 圈瘋傳那張「12 小時」圖表，多數人讀錯了：METR 親自拆解時間軸圖表的真相

Claude Opus 4.6 衝上 12 小時時間軸的消息點燃了 AI 圈，但 METR 兩位高層在 Odd Lots 親自說明：12 小時不是 AI 自主跑 12 小時的意思。翻倍週期已經從 7 個月縮到 4 個月，但 benchmark 的能力跟真實生產力之間，還有三道沒被多數人注意到的摩擦。

2026 年 5 月 4 日 · 來源： Odd Lots

AI 圈瘋傳那張「12 小時」圖表，多數人讀錯了：METR 親自拆解時間軸圖表的真相

本文整理自彭博 Odd Lots 2026 年 4 月播出的單集，主持人 Joe Weisenthal、Tracy Alloway 訪問 METR 總裁 Chris Painter 與技術成員 Joel Becker。

{{< apple-podcast "tw/podcast/understanding-the-most-viral-chart-in-artificial/id1056200096?i=1000763538457" >}}

過去半年，幾乎所有討論 AI 進展的場合，都會出現同一張圖。圖上一條接近垂直的曲線往右上爬，最新的端點寫著 Claude Opus 4.6、12 小時、2026 年 2 月。前一個高點是 OpenAI 的 GPT-5.3 Codex，5 小時 50 分。一個迭代就翻倍。Reddit 上開始有人在這張圖底下問：「我要怎麼投資 OpenAI？」

這張圖叫「時間軸圖表」（Time Horizon Chart），出自一家位於加州柏克萊、只有大約 30 人的研究型非營利組織 METR（Model Evaluation and Threat Research）。它不是哪家投資銀行畫的，也不是 AI 公司自己的行銷素材，但它已經成了業界討論「AI 進步速度」最常被引用的單一證據。

問題是，幾乎每個轉發這張圖的人，都在某種程度上讀錯了。Odd Lots 主持人 Tracy Alloway 在訪問 METR 兩位高層時就直白承認：「我直覺以為自己懂，但開始讀網站上的解釋之後，我越看越糊塗。」這集節目就是 METR 親自把這張圖拆開來，告訴你它真正在量什麼、什麼是它能說的、什麼是它不能說的。

12 小時不是 AI 自主跑 12 小時

主持人 Joe Weisenthal 在訪談一開始就把多數人的誤讀講清楚：「我第一次看到這張圖，跟很多人一樣，以為是說這個 AI 可以自己跑去做一件事 11 小時 59 分鐘，然後拿著答案回來。但顯然不是這個意思。那到底是什麼意思？」

METR 技術成員 Joel Becker 給的定義是這集最該被劃線的一段話。「我們是在畫『AI 能完成的任務難度』隨時間變化的曲線，」他說，「而我們衡量任務難度的方式，是『一個人類完成同樣任務需要多久』。」翻成大白話：12 小時這個數字，描述的是「人類做這件事得花 12 小時」，而 Claude Opus 4.6 在這個難度的任務上，有 50% 的機率成功。它不代表 AI 自己連續跑了 12 小時，也不代表它一定能把任務做完。

這種讀法之所以重要，是因為它把「能力」和「自主性」分開了。模型有沒有能力解一個 12 小時等級的問題，跟它能不能無人監督地連續工作 12 小時，是兩件完全不同的事。多數人在社群媒體上看到這張圖的反應，是把後者塞進前者，然後得出「AI 馬上要取代軟體工程師」的結論。但 METR 量的是前者，後者目前根本還做不到。

那為什麼是「50% 成功率」，而不是更高？這是訪談中第二個常被誤讀的點。Joe 直接質疑：「80% 圖看起來明顯沒有 50% 圖那麼炸裂，為什麼預設要看 50% 那張？」Joel 的回答有點自嘲：「對我自己來說，80% 圖看起來其實一樣炸裂。它的翻倍週期跟 50% 圖差不多，只是整條線往右平移了大約 5 倍的難度差距。換算下來，就是 8 個月之後，今天的 50% 成功率會變成 80% 成功率。」

選 50% 還有更技術性的原因。在統計上，分布在 50% 附近最厚，最少受標籤雜訊影響。如果你想精確估計 99% 的成功率，只要任務評分有 1% 的噪音，數字就完全不可靠。50% 是訊噪比最高的點。Chris Painter 補了一個更直觀的說法：「給我一個任務和一個模型，我只知道人類要花多久，那 50% 時間軸就是『我猜這個模型有沒有可能做成』的分水嶺。」

翻倍週期從 7 個月縮成 4 個月

如果說 12 小時這個絕對數字容易被誤讀，那訪談中真正讓人坐直的，是另一個相對數字：能力翻倍的速度，比一年前 METR 自己估的還要快。

「我以前是『七個月翻倍派』，」Joel 在被 Tracy 追問時直接坦承，「我們團隊內部為這件事吵過。」一年前 METR 第一次發表這份研究時，如果你拉一條直線通過所有資料點，得到的是六到七個月翻倍。但如果只取 GPT-4o 之後（大約 2024 年中起）的資料，曲線斜率會陡得多，比較像是四個月翻倍。Joel 自己當初站在前者：「我覺得我們資料點太少了，應該用更多資料來估，那就是七個月。」

讓他改口的，是接下來這一年陸續發布的新模型。「每次有新模型出來，我們都會看：哪一條趨勢線預測得比較準？答案非常清楚，就是四個月那條。」他甚至覺得未來可能還會再加速一次。原因之一是各家 AI 實驗室現在的優化壓力高度集中在程式設計和 ML 任務上，OpenAI 都把 Sora 影片生成那條線收掉了，資源更集中地往 METR 在量的那個能力堆。

這個加速的意義在哪裡？Joe 在收尾的對話中講了一句很妙的話：「七個月跟四個月翻倍，差別到底有多大？感覺像在爭『AI 兩年內會消滅所有白領工作』還是『三年內會消滅所有白領工作』，根本沒差。」Tracy 立刻提醒他：「但這是指數，不是線性。」這句提醒值得在心裡多停一下。指數成長的差距會迅速放大，七個月翻倍跟四個月翻倍，三年後拉開的距離不是 50%，是好幾倍。

更關鍵的是，這條曲線之所以幾乎沒有人預期會在短期內趨緩，跟另一條曲線高度同步：算力研發的支出。Joel 提到一個讓他自己也覺得不可思議的事實：「前沿實驗室在算力上的研發支出，是以指數成長，而且斜率幾乎跟時間軸圖表一模一樣。」更要命的是，2027 到 2028 年的資料中心已經簽了約、開了工，這些算力的承諾基本上都已經「鎖在桌上」。要時間軸圖表趨緩，唯一的可能是算力之外的其他輸入（資料、演算法、人才）出現瓶頸。

人類基準怎麼定？三個工程師、按時計酬的隱憂

要畫出這張圖，METR 必須先回答一個更基本的問題：怎麼定義「一個任務值多少小時」？答案是花錢請人類做。Joel 描述方法論時很坦率：「我們挑出有相關專業的人，軟體工程任務找軟體工程師、ML 任務找 ML 研究員，給他們跟 AI 一樣的工具和條件，計時看他們完成要多久。然後把這個平均時間，當作這個任務的『難度』。」

問題出在「平均」這個字。每個任務的人類基準大約只有三位。Tracy 立刻問了一個敏感的問題：「樣本數會不會太小？而且，找人類工程師來跟 Claude Opus 4.6 比，會不會越來越難？」Joel 的回答帶點哀傷：「我自己就跟你差不多。」不過他補充，最終數字對單一基準的選擇其實沒那麼敏感。如果換掉一兩個基準者，估出來的時間軸可能會差一倍，但翻倍週期不會變，曲線斜率還是同一條。

但 Joe 接著丟了一個更尖銳的批評。Substack 上有篇叫〈Against the Meter Graph〉的文章（作者 Nathan Witkin），點出了一個明顯的利益衝突：「你按時付錢請軟體工程師來做這個任務，那他們有什麼動機要快？拖越久，賺越多。」Joel 承認這個批評有道理，但 METR 的做法是按任務計酬，而且設了獎金：完成時間比同儕快的人，可以拿到額外獎勵。「這某種程度上把誘因反過來了，」他說，「你越快越賺。」

Joel 接下來這段話，是這集裡最出乎意料也最值得記下的一段自我批評。「我有一個懷疑，」他說，「METR 在量的那些任務，可能越來越是『一小片狹窄的任務分布』。而且這片任務分布，可能跟那些大型 AI 公司本來就在拿來訓練模型的任務分布越來越像。」白話翻譯：METR 量的能力進步，部分可能來自「測什麼就教什麼」的效應。AI 公司知道時間軸圖表在量這類任務，就更專心優化這類任務，於是分數越來越漂亮。這條曲線描述的進步是真的，但它能不能完全推廣到「真實世界」的任務分布，Joel 自己留了一個誠實的問號。

benchmark 不等於真實生產力的三道摩擦

這個問號連著訪談中最實用的一段：為什麼 benchmark 上看起來那麼強的模型，落到真實工作場域，產出感覺不像「12 小時人類等級」？Joel 拆出三個原因，這是任何一個正在用 Claude Code 或 Codex 寫程式的工程師應該認真讀的部分。

第一道摩擦是評分方式不一樣。METR 的任務評分是演算法式、自動化的，通過就是通過，失敗就是失敗。但真實世界的程式碼，老闆和同事評的是「程式品質好不好」「有沒有貼合團隊規範」「優不優雅」。Tracy 開玩笑說：「就是『如果 Anna Wintour 寫程式，她寫出來的樣子』。」這種整體性、品味性的評分，benchmark 完全沒辦法捕捉。模型可能在 benchmark 上 90% 通過率，落到實戰可能只有 60% 被同事接受。

第二道摩擦是真實任務本身就比較髒亂。Benchmark 任務通常邊界清楚、目標明確、可在沙箱裡執行。真實任務則是要在十幾萬行的程式碼庫裡找到該改的地方、要跟其他人協作、要承受其他工程師同時改動同一段程式碼的「對抗性」干擾。Joel 形容：「AI 在這類比較髒亂的問題上，能力會打折，雖然不是大幅打折。」

第三道摩擦最微妙，但可能最致命：可靠度低於 100%，會帶來驗證成本。如果某類任務的成功率只有 80%，每一次模型給你輸出，你都得回頭驗證它做對了沒有。而驗證一段別人寫的程式碼，往往比自己寫一遍還累，因為你沒有對方寫程式時的脈絡。Joel 把這個現象稱為「verification step」，他說：「這就是為什麼 benchmark 上看起來很大的能力提升，落到實際生產力的提升會打折扣。」

這三道摩擦把問題重新框定了。時間軸圖表的斜率是一回事，這個能力轉換成「老闆願意付錢買的工作成果」是另一回事。前者目前看起來不會慢下來，後者則涉及程式品味、團隊規範、可靠度門檻、人類驗證流程的整體升級。對在企業裡導入 AI 工具的人來說，這意味著「benchmark 更新到 12 小時」跟「我們團隊的軟體交付速度提升一倍」之間，有一段需要自己補上的距離。

為什麼中國模型不在主圖上

訪談中最容易被忽略、但對台灣讀者特別重要的一段，是中國模型的處境。Tracy 直接問：「Qwen 沒有出現在你們的主圖上，你們是不是只做過初步評估？閉源美國模型跟開源中國模型，評估方式上有什麼不一樣？」

Joel 的答案很直接：「中國模型的能力是落後的。我們的判斷是，它們大約落後美國前沿模型 9 到 12 個月。」緊接著的後半段更刺：「而且這個落差，從時間軸圖表來看，可能比 benchmark 分數呈現的還要大。」Tracy 馬上抓到言下之意：「你的意思是，它們在『刷分』？」Joel 沒有把話說死，但確認了「精神上接近」這個說法：中國模型在 benchmark 上的表現，可能比它們在真正未見過的問題上實際表現要強。

這個評估有幾個層次值得拆開看。首先，9 到 12 個月在指數成長的曲線上，差距不是線性的。如果美國模型每四個月翻倍，落後 12 個月就等於落後 3 個翻倍週期，能力差距是 8 倍。DeepSeek 在春天的新版本讓全市場震一下、Qwen 在開源圈被當成「中國 OpenAI」，但從 METR 的角度，這些都還沒有觸到前沿。Joel 提到 METR 因為人力有限，「我們會優先評估我們預期會在前沿的模型。」這隱含的意思是：今天的中國模型，還沒值得 METR 把寶貴的評估能量分配上去。

但這個說法本身也有風險。METR 自己承認團隊只有 30 人，他們能處理的任務分布、模型範圍都很窄。「我們在腦力激盪 20、30 個我們覺得世界等級的重要問題，但每一季實際能做的研究大概只有一到三個。」這意味著「中國模型不在主圖上」這件事，部分是因為它們真的落後，部分也是因為 METR 沒人手去仔細測。對於關心中美 AI 落差的台灣讀者來說，這不是一個能完全採信、也不是能完全不採信的判斷。它是一個有方向但帶誤差的指針。

對台灣產業來說，這段話的實務意義是：如果你的決策（採購哪家模型、跟哪邊的供應鏈合作、要不要押注本土模型）建立在「中國 AI 已經追上美國」的假設上，至少要把 METR 這個視角放進來對照。同時，當下次 DeepSeek 或 Qwen 又拋出一個「超越 GPT-X」的 benchmark 時，要記得 Joel 這句保留：在真正未見過的問題上，數字可能沒那麼漂亮。

這張圖真正值得記住的，不是 12 小時

回到一開始那個被 Reddit 網友問的問題：看到這張圖，要怎麼投資？

訪談聽到後段，會發現 METR 自己對這張圖的定位，跟外界的解讀有相當大的落差。對 METR 來說，它存在的目的不是給投資人看 AI 多強，而是回答一個更根本的問題：什麼時候，AI 系統會自主到讓「失控」這件事從哲學辯論變成可量化的風險？時間軸圖表是這個更大研究議程的一個副產品，因為它把「自主性」這個抽象詞，綁定到一個具體可量的東西，就是「人類做這件事要花多久」。

但對作為讀者的我們，這集訪談留下的最有用的提醒，不是 12 小時這個數字，而是這張圖的斜率本身。翻倍週期從七個月縮到四個月、跟算力支出指數同步成長、未來兩年的算力承諾已經鎖在桌上、各家實驗室還在加碼集中火力到這個方向。這些事情合起來告訴你，至少在 2026 到 2028 這段時間，這條線不太可能走平。

至於它真實對應到「能取代多少人類工作」的程度，那就是 Joel 拆出的那三道摩擦要回答的問題：評分方式、髒亂任務、可靠度成本。這三道摩擦會被打破嗎？Joel 自己的判斷是會，只是時間。而當這三道摩擦也跟時間軸圖表一樣往上突破的時候，那才是真正值得整個社會坐下來重新討論的時刻。

在那之前，看到這張圖，先記住兩件事：12 小時不是 AI 自己跑 12 小時，而中國模型不在圖上，不只是因為它們落後。