自動化 90% 還不夠:METR 研究員談 AI「能力爆炸」的真正門檻

AI 要真正引發能力爆炸,需要的不只是寫程式和做研究,而是包含修壞掉的 GPU、打電話給水公司、設計晶片、製造晶片在內的完整迴路。METR 研究員 Joel Becker 解釋為什麼 90% 的自動化不等於接近完成,以及算力放緩如何造成雙重減速效應。

自動化 90% 還不夠:METR 研究員談 AI「能力爆炸」的真正門檻

本文整理自《Latent Space: The AI Engineer Podcast》2026 年 2 月播出的單集。

{{< youtube 9QSm_mRGpN8 >}}

{{< spotify "episode/1gdGWVvbrHgxkDX4JnTBgE" >}}

{{< apple-podcast "tw/podcast/metrs-joel-becker-on-exponential-time-horizon-evals/id1674008350?i=1000751972505" >}}


封面圖

當 AI 能自己做 AI 研究

AI 領域最讓人興奮、也最讓人擔憂的一個前景是:如果 AI 模型變得夠好,它們可以自己做 AI 研究,設計出更好的模型,然後那些更好的模型又能做更好的研究。這個遞歸式的自我改進迴路,是所有 AI 加速主義者的夢想,也是所有 AI 安全研究者最擔心的情境。

但這個迴路到底需要什麼條件才能真正啟動?METR(Model Evaluation and Threat Research)的研究員 Joel Becker 最近在 Latent Space Podcast 上做了一個非常具體的拆解。他的核心論點是:即使 AI 自動化了 90% 的 AI 研發流程,那仍然不夠。真正的關鍵不在於百分比,而在於整個迴路有沒有完全閉合。

METR 是一個獨立的 AI 安全組織,前身是 Alignment Research Center 的評估部門,2023 年底分拆成獨立的 501(c)(3) 非營利組織。它不接受 AI 實驗室的資金,專門評估前沿 AI 模型的能力,以判斷這些模型是否構成重大風險。Becker 有紐約大學經濟學博士的背景,結合了量化研究的嚴謹和對系統性風險的敏感度。他在 METR 的工作核心,就是試圖回答一個問題:AI 距離能自動化整個 AI 研發流程,還有多遠?

從「自主複製」到「R&D 加速」

METR 的名稱中「TR」代表的是 Threat Research(威脅研究),而這個「威脅」的具體定義在過去幾年經歷了一次重要的轉變。早期的 AI 安全研究比較關注「自主複製」這個情境:AI 會不會學會在網路上複製自己、獲取計算資源、在人類不知情的情況下持續運作和擴散?這是一個很戲劇性的場景,也是 METR 前身 ARC Evals 最早測試的能力之一。

但 Becker 解釋說,METR 現在的主要關注點已經轉移到一個看起來沒那麼科幻、但可能更加危險的方向:AI 研發加速(AI R&D Acceleration)。這個威脅模型的邏輯是這樣的。AI 實驗室用 AI 來加速自己的研究,做出更好的模型。更好的模型進一步加速研究,形成正回饋迴路。如果這個迴路夠強、夠快,人類可能失去對 AI 發展方向和速度的有效控制。危險不在於 AI「逃跑了」,而在於 AI 進步的速度超過人類理解、測試和管理它的速度。

這種轉變反映了 AI 安全研究的成熟。早期的擔憂是 AI 會做出明顯的敵對行為(複製、逃脫、欺騙),現在的擔憂更加微妙:AI 可能在完全「合作」的情境中造成危險,只要它被用來加速那些人類還沒準備好管理的能力提升。你不需要一個邪惡的 AI,只需要一個太快的 AI。

最後的 10% 是什麼?

「自動化 90% 還不夠,」Becker 在節目中說。「你需要某個完整的迴路被閉合,而也許我們遺漏了一些指向那缺失的 10% 的任務。」

那缺失的 10% 到底是什麼?Becker 用了幾個非常具體的例子來說明,而這些例子之所以重要,正是因為它們跟大多數人想像中的「AI 研發」完全不一樣。

要訓練一個前沿模型,你需要一個由數萬張 GPU 組成的巨型計算叢集。這些 GPU 會壞。冷卻系統會故障。當冷卻系統故障的時候,你需要打電話給水公司。電力供應會出問題,需要跟電力公司、跟地方政府、跟建築承包商交涉。這些都是實體世界的問題,需要實體世界的介入,需要人類用電話、用合約、用社交技能去解決。

再往上游看,GPU 本身需要被設計和製造。晶片設計是一個極其複雜的工程流程,涉及數十億個電晶體的佈局優化。晶片製造更是需要世界上最精密的物理設備,極紫外光(EUV)微影機目前只有荷蘭的 ASML 能做,最新一代的 High-NA EUV 每台要價接近四億美元。要完全閉合 AI 研發的迴路,不只需要自動化軟體和研究,還需要自動化硬體設計、半導體製造、資料中心建設和維護。這就是為什麼 90% 自動化跟 100% 自動化之間的差距如此巨大。如果 AI 能自動化 90% 的軟體研發,但需要人類來修 GPU、設計晶片、管理資料中心,那麼人類仍然是整個流程的瓶頸。迴路沒有完全閉合,遞歸式加速就不會真正啟動。進步速度仍然受限於人類處理那 10% 的能力和速度。

純軟體的智慧爆炸 vs 全迴路

但有一種論點認為,就算硬體完全不變,純粹靠軟體和演算法的改進,AI 也可能實現自我加速。這就是所謂的「純軟體智慧爆炸」(software-only intelligence explosion)情境。

這個情境的邏輯是這樣的:如果 AI 能用同樣的硬體做出更高效的訓練方法,用更少的資源達到同樣甚至更好的效果,那它等於間接「製造了更多硬體」。更高效的演算法意味著你現有的 GPU 叢集突然變得更強大了。而更強大的等效計算能力又讓你能開發出更高效的演算法。即使沒有一顆新的晶片被製造出來,這個迴路理論上也可以不斷加速。

Becker 認為這個情境值得認真對待,但他也指出了幾個重要的限制。首先,演算法效率的改進不是無限的。物理定律對於從固定硬體中能擠出多少計算量有一個硬上限。其次,到目前為止,重大的演算法突破(如 Transformer 架構、注意力機制)雖然偶爾出現,但它們的頻率和影響程度很難預測。你不能假設 AI 自己做研究就一定能持續產出這種等級的突破。歷史上很多重要的演算法創新,來自完全意料之外的方向。

更重要的是,即使純軟體路線在短期內產生了顯著的能力跳升,長期來看它仍然會碰到硬體瓶頸。推論需要 GPU,部署需要資料中心,擴大規模需要更多的晶片和電力。如果你的目標是持續的、指數級的能力成長,那遲早需要閉合硬體的迴路。純軟體路線可能帶來一波跳升,但它不太可能支撐持續的遞歸式爆炸。

算力放緩的雙重減速效應

在思考 AI 進步速度時,METR 發表了一個特別有啟發性的研究。直覺上的理解很簡單:更少的算力投資意味著更少的訓練資源,所以模型進步會變慢。但 METR 的分析指出了一個容易被忽略的第二層效應:演算法進步本身也依賴算力。

要發現更好的訓練方法,研究人員需要跑大量的實驗。這些實驗本身就消耗算力。他們要測試不同的架構、不同的超參數、不同的數據處理策略,每一次實驗都需要在大量的 GPU 上跑數天甚至數週。如果整體的算力供給縮減了,不只是模型訓練變慢,連「發現如何讓訓練更高效」的研究也會變慢。這是一個雙重減速:直接的(更少算力訓練模型)加上間接的(更少算力做演算法研究)。

Becker 在節目中坦承這個觀點有可以辯論的空間。有些重大的演算法突破需要的算力其實很少。注意力機制的核心概念可以在紙上推導出來,不需要百萬美元的 GPU 叢集。而且,AI 輔助的研究可能在某種程度上抵消算力減少的影響,讓研究人員用更少的資源做更多的探索。

但整體而言,這個框架提供了一個有用的思考工具。在一個算力投資可能不再以過去的速度成長的世界裡,不管是因為能源限制、供應鏈問題、還是投資回報疑慮,AI 進步放緩的幅度可能比天真的線性外推所暗示的更大。不是放緩一半,而是放緩一半再乘以一個折扣。對那些把未來策略建立在「AI 能力持續指數成長」假設上的企業和政府來說,這個雙重減速效應值得納入風險評估。

獨立評估是安全的基礎設施

回到那個核心問題:AI 離完全閉合研發迴路還有多遠?Becker 的誠實回答是,我們不確定,而且目前的評測工具不夠好,沒辦法給出精確的答案。

METR 的旗艦指標 Time Horizon 顯示,AI 能可靠完成的任務難度正在指數成長,Opus 4.5 的表現甚至暗示翻倍速度可能從七個月加快到四個月。但 Becker 自己就是第一個提醒你這張圖的侷限的人:它只測量範圍明確、可自動評分的軟體任務,跟閉合完整研發迴路所需要的那種混亂、跨領域、跨實體世界的能力相去甚遠。

他心目中的理想評估方式聽起來幾乎像是一個思想實驗:「在某種意義上,我想做的金標準評估就是給 AI 一堆工具和資源,輸入『自動化研發』,然後去看它做了什麼。」不是給 AI 精心設計的考題,而是給它一個開放式的目標,觀察它怎麼分解問題、獲取資源、處理障礙。這種開放式評估之所以重要,是因為閉合研發迴路所需要的能力,不是任何一組有限的 benchmark 能涵蓋的。

這也是為什麼 METR 的獨立性如此重要。「我認為擁有這個獨立的專業來源至關重要,」Becker 說。「這面鼓我可以永遠敲下去。」如果能力評測由 AI 實驗室自己做,他們有動機選擇讓自己看起來最好的指標。如果由政府做,可能缺乏足夠的技術深度。在 AI 能力每幾個月就大幅提升的當下,獨立的能力評估不是學術奢侈品,而是一種安全基礎設施,就像核電廠需要獨立的安全監督、金融系統需要獨立的審計一樣。METR 的發現讓我們知道,AI 離真正的能力爆炸門檻可能比最樂觀的預測所暗示的還要遠,因為那個門檻不只是軟體問題,而是包含整個實體世界的全迴路問題。但如果那個門檻有一天真的被跨過了,我們最好已經有足夠的獨立觀測能力,能在它發生的時候看見它。