AI 每四個月能做更難的事?METR 研究員談 Time Horizon 指標的震撼與盲點

METR 的 Time Horizon 指標是 AI 圈最火的一張圖表:AI 能可靠完成的任務難度正在指數成長,Opus 4.5 甚至把翻倍速度從七個月加快到四個月。但 METR 研究員 Joel Becker 提醒,這張圖只涵蓋現實的一小塊切面,benchmark 表現好不代表實際好用。

AI 每四個月能做更難的事?METR 研究員談 Time Horizon 指標的震撼與盲點

本文整理自《Latent Space: The AI Engineer Podcast》2026 年 2 月播出的單集。

{{< youtube 9QSm_mRGpN8 >}}

{{< spotify "episode/1gdGWVvbrHgxkDX4JnTBgE" >}}

{{< apple-podcast "tw/podcast/metrs-joel-becker-on-exponential-time-horizon-evals/id1674008350?i=1000751972505" >}}


封面圖

一張圖表引爆的 AI 進度大辯論

在 2026 年初的 AI 圈裡,有一張圖表的出現頻率恐怕僅次於 NVIDIA 的股價走勢圖。它出現在創投的投資簡報裡、出現在政策制定者的桌上、出現在每一場關於 AI 安全的辯論中。MIT Technology Review 稱它為「AI 領域最被誤解的圖表」。這張圖來自一個叫做 METR 的獨立 AI 安全組織,它追蹤的指標叫做 Time Horizon。圖表傳達的訊息看起來很簡單:AI 能可靠完成的任務難度,正以驚人的指數速度增長。每隔幾個月,前沿模型就能處理更難的事情。

但製作這張圖表的人之一、METR 的研究員 Joel Becker,最近在 Latent Space Podcast 上花了將近一小時解釋一件事:大多數人看到這張圖表,都會產生一些關鍵的誤解。Becker 在紐約大學拿了經濟學博士,之前在牛津大學全球優先研究所和哈佛大學做量化基因體學研究,還是預測市場平台 Manifold Markets 上最賺錢的交易者。這種結合經濟學嚴謹性和預測能力的背景,讓他在 AI 評測領域帶來一種不常見的坦率:他不怕承認自己的指標有哪些侷限,也不怕說出跟業界主流敘事不同的話。

Time Horizon 到底在量什麼?

Time Horizon 的定義聽起來很直觀,但有一個關鍵的細微差異,大多數人都搞錯了。它測量的是:在什麼樣的任務難度下,AI 模型能以 50% 的可靠度完成任務。而「任務難度」是用人類專家完成同樣任務所需的時間來衡量的。所以當你看到「Time Horizon 是 50 分鐘」,它的意思不是 AI 可以連續自主工作 50 分鐘,而是 AI 能完成一個人類專家需要花 50 分鐘才能解決的任務,而且成功率有五成。AI 本身可能花了 10 分鐘就做完,也可能花了兩個小時,這不是測量的重點。

Becker 強調這個區別非常重要。很多人把 Time Horizon 等同於「AI 的自主工作時長」,然後推導出「等 Time Horizon 到了八小時,AI 就能取代全職員工了」這類結論。但那不是這個指標在說的事。它量的是能力的難度邊界,不是持久力。

那這些任務是怎麼選出來的?來源有兩個:METR 內部的研究人員自己設計任務,以及透過外部的懸賞計畫向社群徵集。他們的目標是選擇在經濟上有價值、且跟通用自主能力和研發相關的任務。實際上,這意味著以軟體工程和資料處理為主。每個任務都需要滿足幾個條件:必須能自動評分(因為要大規模執行)、必須對一個有能力但沒有內部背景知識的人類是公平的、而且必須是範圍明確的,不能是開放式的模糊目標。

這些條件不只是實務上的限制,它們系統性地塑造了這個指標所能測量的東西。不能自動評分的任務被排除了,需要視覺判斷的任務被排除了,需要跟利害關係人反覆溝通的工作被排除了,範圍模糊的創意性工作也被排除了。留下來的是一個特定的切面:範圍明確、可自動評分、以軟體為主的任務。

驚人的指數趨勢,與 Opus 4.5 的跳升

讓這張圖表如此引人注目的,是趨勢線的穩定性。Becker 說他自己都很驚訝。跨越多年的時間尺度、跨越好幾個數量級的算力投入,在對數尺度上,這條線出奇地直。他原本估計的翻倍時間是大約七個月,也就是每七個月,AI 模型就能可靠處理大約兩倍難度的任務。

「到目前為止,這個趨勢有多連續,讓我相當意外,」Becker 在節目中說。「這讓我有一些信心,認為它未來可能繼續保持連續。」這是一句非常克制的話。他沒說「AI 進步不會停」,而是說趨勢的連續性本身就是一個值得注意的事實。

然後 Opus 4.5 登場了。Anthropic 的這個模型在 Time Horizon 圖表上顯示了一個明顯的跳升。在 2026 年 1 月的 Time Horizon 1.1 更新中,Opus 4.5 的 50% 可靠度對應到大約 320 分鐘,意味著它能可靠完成一個人類專家需要花五個多小時才能解決的任務。這個數字暗示翻倍時間可能已經從七個月加速到四個月左右。如果這個加速是真的而不是統計雜訊,意味著 AI 能力的成長速度在加快。

但 Becker 很謹慎,不願過度解讀單一資料點。他指出,很難區分「偏離趨勢線是因為任務分布的難度差異」還是「因為模型的潛在能力真的有根本性提升」。換句話說,當一個新模型看起來跳到趨勢線上方時,有可能只是因為它碰巧遇到了對它比較容易的一批任務。真正有資訊量的是跨越多年的長期趨勢,而不是任何單一模型的表現。

這張圖沒告訴你的事

Becker 對自己指標的侷限,坦誠到罕見的程度。他直言,「把 AI 能力壓縮成像 Time Horizon 這樣的單一數字,會丟失巨量的重要細節,而且實際上阻礙了人們去理解模型到底在哪些方面不足。」這句話聽起來像是在拆自己的台,但其實點出了一個更深的問題:整個 AI 評測領域都在跟這個矛盾搏鬥。

一方面,人們需要簡單的指標來追蹤進度,做決策,分配資源。另一方面,AI 的能力是多維度的,不同模型在不同類型的任務上表現差異很大。一個在 Time Horizon 上分數很高的模型,可能在需要視覺理解、模糊容忍度或多方協調的真實工作上完全不行。這些維度在圖表上看不到。

更根本的問題是任務本身的性質。METR 目前使用的任務套件叫 HCAST,涵蓋從簡單的軟體操作到需要 20 到 30 小時的高難度挑戰。但即使是最難的任務,仍然是「範圍明確的」:有清晰的目標、清晰的成功標準、清晰的邊界。真實的 AI 研發工作不是這樣的。真正的研究是凌亂的、開放式的、充滿模糊判斷的。Becker 坦言,Time Horizon 的任務分布與真實世界的工作之間存在系統性的落差。

這也是為什麼 Becker 對一個叫做 AI Village 的研究方向特別感興趣。AI Village 不是給 AI 一個具體任務然後打分,而是給一群 AI agent 開放式的目標,比如「建立一家商品店」或「組織一場活動」,然後觀察它們做了什麼。這種評測方式難度大得多,也更難自動化,但它更接近於測量真正重要的東西:AI 能不能在真實世界中做有用的工作?而不只是通過精心設計的考試。

Benchmark 好看不等於實際好用

指標和現實的落差不是抽象的理論問題,METR 用最硬的科學方法證明了這一點。他們做了一個隨機對照試驗(RCT),讓 16 位在成熟開源專案中平均有五年經驗的開發者,隨機在可以用 AI 或不可以用 AI 的條件下工作,然後比較實際完成 246 個任務的速度。結果:AI 讓資深開發者的完成速度慢了 19%。不是快了 19%,是慢了。

開發者事前預測 AI 會讓他們快 24%,事後經歷了實際的減速,他們仍然相信 AI 讓自己快了 20%。外部專家(經濟學家和機器學習研究者)預測的加速幅度更大,高達 38% 到 39%。感知和現實之間的鴻溝,幾乎跟 AI 本身一樣值得研究。

Becker 指出,業界對 AI 提速的樂觀估計之所以被膨脹,有幾個結構性原因。人們傾向在預期 AI 會有幫助的任務上使用 AI,但不會統計那些 AI 幫不上忙的場景。AI 讓你「多做的事」往往不如你原本就在做的事有價值。而現代開發者的工作模式已經轉向多任務併發,讓單一任務的提速測量變得更加複雜。Becker 的原話是:「對 AI 提速的樂觀估計,在某種程度上被我們在論文中記錄的現象膨脹了:人們對提速的預期往往過於樂觀。」

同時,他也觀察到了行為面的劇烈轉變。「我看到一些我認識的最有才華的工程師,從對使用 AI 寫程式非常挑剔,變成幾乎不自己寫一行程式碼了。」模型確實在進步。問題不是模型有沒有變好,而是 benchmark 上的進步能不能一比一地轉化成真實世界的生產力提升。到目前為止,證據顯示這兩者之間的轉換率,比大多數人以為的低很多。

為什麼獨立測量很重要

在一個 AI 實驗室自己發布 benchmark 結果、創投放大這些數字來拉抬估值的生態系統中,誰來提供不受商業利益左右的能力評估?這個問題的答案,目前主要就是 METR。

METR 的前身是 ARC Evals(Alignment Research Center 的評估部門),2023 年底獨立出來成為 501(c)(3) 非營利組織。它的資金來源包括 The Audacious Project、英國 AI 安全研究所和多個基金會,但明確不接受 AI 實驗室的直接資金。「我認為擁有這個獨立的專業來源至關重要,」Becker 說。「這面鼓我可以永遠敲下去。」

Becker 對評測未來的願景,揭示了前方還有多少路要走。他心目中的「金標準」評估是:給 AI 一堆工具和資源,輸入「去自動化 AI 研發」,然後看它做了什麼。不是測試預先定義的任務,而是觀察 AI 在開放環境中的行為。他也提出了一個更務實的改進方向:不只看 AI 生成的程式碼能不能通過單元測試,而是看那些程式碼會不會真的被合併進主分支。通過測試是一回事,程式碼有沒有遵循代碼庫的規範、有沒有加上適當的測試、有沒有跟其他元件正確整合,這些才是一段程式碼在生產環境中有沒有用的真正標準。包括 Time Horizon 在內,我們現有的所有 benchmark 都是代理指標。它們有用,但它們不是真實世界本身。承認這一點,也許是正確理解 AI 進步的第一步。