AI 安全與治理

自動化 90% 還不夠：METR 研究員談 AI「能力爆炸」的真正門檻

AI 要真正引發能力爆炸，需要的不只是寫程式和做研究，而是包含修壞掉的 GPU、打電話給水公司、設計晶片、製造晶片在內的完整迴路。METR 研究員 Joel Becker 解釋為什麼 90% 的自動化不等於接近完成，以及算力放緩如何造成雙重減速效應。

2026 年 3 月 7 日 · 來源： Latent Space: The AI Engineer Podcast

本文整理自《Latent Space: The AI Engineer Podcast》2026 年 2 月播出的單集。

{{< apple-podcast "tw/podcast/metrs-joel-becker-on-exponential-time-horizon-evals/id1674008350?i=1000751972505" >}}

封面圖

當 AI 能自己做 AI 研究

AI 領域最讓人興奮、也最讓人擔憂的一個前景是：如果 AI 模型變得夠好，它們可以自己做 AI 研究，設計出更好的模型，然後那些更好的模型又能做更好的研究。這個遞歸式的自我改進迴路，是所有 AI 加速主義者的夢想，也是所有 AI 安全研究者最擔心的情境。

但這個迴路到底需要什麼條件才能真正啟動？METR（Model Evaluation and Threat Research）的研究員 Joel Becker 最近在 Latent Space Podcast 上做了一個非常具體的拆解。他的核心論點是：即使 AI 自動化了 90% 的 AI 研發流程，那仍然不夠。真正的關鍵不在於百分比，而在於整個迴路有沒有完全閉合。

METR 是一個獨立的 AI 安全組織，前身是 Alignment Research Center 的評估部門，2023 年底分拆成獨立的 501(c)(3) 非營利組織。它不接受 AI 實驗室的資金，專門評估前沿 AI 模型的能力，以判斷這些模型是否構成重大風險。Becker 有紐約大學經濟學博士的背景，結合了量化研究的嚴謹和對系統性風險的敏感度。他在 METR 的工作核心，就是試圖回答一個問題：AI 距離能自動化整個 AI 研發流程，還有多遠？

從「自主複製」到「R&D 加速」

METR 的名稱中「TR」代表的是 Threat Research（威脅研究），而這個「威脅」的具體定義在過去幾年經歷了一次重要的轉變。早期的 AI 安全研究比較關注「自主複製」這個情境：AI 會不會學會在網路上複製自己、獲取計算資源、在人類不知情的情況下持續運作和擴散？這是一個很戲劇性的場景，也是 METR 前身 ARC Evals 最早測試的能力之一。

但 Becker 解釋說，METR 現在的主要關注點已經轉移到一個看起來沒那麼科幻、但可能更加危險的方向：AI 研發加速（AI R&D Acceleration）。這個威脅模型的邏輯是這樣的。AI 實驗室用 AI 來加速自己的研究，做出更好的模型。更好的模型進一步加速研究，形成正回饋迴路。如果這個迴路夠強、夠快，人類可能失去對 AI 發展方向和速度的有效控制。危險不在於 AI「逃跑了」，而在於 AI 進步的速度超過人類理解、測試和管理它的速度。

這種轉變反映了 AI 安全研究的成熟。早期的擔憂是 AI 會做出明顯的敵對行為（複製、逃脫、欺騙），現在的擔憂更加微妙：AI 可能在完全「合作」的情境中造成危險，只要它被用來加速那些人類還沒準備好管理的能力提升。你不需要一個邪惡的 AI，只需要一個太快的 AI。

最後的 10% 是什麼？

「自動化 90% 還不夠，」Becker 在節目中說。「你需要某個完整的迴路被閉合，而也許我們遺漏了一些指向那缺失的 10% 的任務。」

那缺失的 10% 到底是什麼？Becker 用了幾個非常具體的例子來說明，而這些例子之所以重要，正是因為它們跟大多數人想像中的「AI 研發」完全不一樣。

要訓練一個前沿模型，你需要一個由數萬張 GPU 組成的巨型計算叢集。這些 GPU 會壞。冷卻系統會故障。當冷卻系統故障的時候，你需要打電話給水公司。電力供應會出問題，需要跟電力公司、跟地方政府、跟建築承包商交涉。這些都是實體世界的問題，需要實體世界的介入，需要人類用電話、用合約、用社交技能去解決。

再往上游看，GPU 本身需要被設計和製造。晶片設計是一個極其複雜的工程流程，涉及數十億個電晶體的佈局優化。晶片製造更是需要世界上最精密的物理設備，極紫外光（EUV）微影機目前只有荷蘭的 ASML 能做，最新一代的 High-NA EUV 每台要價接近四億美元。要完全閉合 AI 研發的迴路，不只需要自動化軟體和研究，還需要自動化硬體設計、半導體製造、資料中心建設和維護。這就是為什麼 90% 自動化跟 100% 自動化之間的差距如此巨大。如果 AI 能自動化 90% 的軟體研發，但需要人類來修 GPU、設計晶片、管理資料中心，那麼人類仍然是整個流程的瓶頸。迴路沒有完全閉合，遞歸式加速就不會真正啟動。進步速度仍然受限於人類處理那 10% 的能力和速度。

純軟體的智慧爆炸 vs 全迴路

但有一種論點認為，就算硬體完全不變，純粹靠軟體和演算法的改進，AI 也可能實現自我加速。這就是所謂的「純軟體智慧爆炸」（software-only intelligence explosion）情境。

這個情境的邏輯是這樣的：如果 AI 能用同樣的硬體做出更高效的訓練方法，用更少的資源達到同樣甚至更好的效果，那它等於間接「製造了更多硬體」。更高效的演算法意味著你現有的 GPU 叢集突然變得更強大了。而更強大的等效計算能力又讓你能開發出更高效的演算法。即使沒有一顆新的晶片被製造出來，這個迴路理論上也可以不斷加速。

Becker 認為這個情境值得認真對待，但他也指出了幾個重要的限制。首先，演算法效率的改進不是無限的。物理定律對於從固定硬體中能擠出多少計算量有一個硬上限。其次，到目前為止，重大的演算法突破（如 Transformer 架構、注意力機制）雖然偶爾出現，但它們的頻率和影響程度很難預測。你不能假設 AI 自己做研究就一定能持續產出這種等級的突破。歷史上很多重要的演算法創新，來自完全意料之外的方向。

更重要的是，即使純軟體路線在短期內產生了顯著的能力跳升，長期來看它仍然會碰到硬體瓶頸。推論需要 GPU，部署需要資料中心，擴大規模需要更多的晶片和電力。如果你的目標是持續的、指數級的能力成長，那遲早需要閉合硬體的迴路。純軟體路線可能帶來一波跳升，但它不太可能支撐持續的遞歸式爆炸。

算力放緩的雙重減速效應

在思考 AI 進步速度時，METR 發表了一個特別有啟發性的研究。直覺上的理解很簡單：更少的算力投資意味著更少的訓練資源，所以模型進步會變慢。但 METR 的分析指出了一個容易被忽略的第二層效應：演算法進步本身也依賴算力。

要發現更好的訓練方法，研究人員需要跑大量的實驗。這些實驗本身就消耗算力。他們要測試不同的架構、不同的超參數、不同的數據處理策略，每一次實驗都需要在大量的 GPU 上跑數天甚至數週。如果整體的算力供給縮減了，不只是模型訓練變慢，連「發現如何讓訓練更高效」的研究也會變慢。這是一個雙重減速：直接的（更少算力訓練模型）加上間接的（更少算力做演算法研究）。

Becker 在節目中坦承這個觀點有可以辯論的空間。有些重大的演算法突破需要的算力其實很少。注意力機制的核心概念可以在紙上推導出來，不需要百萬美元的 GPU 叢集。而且，AI 輔助的研究可能在某種程度上抵消算力減少的影響，讓研究人員用更少的資源做更多的探索。

但整體而言，這個框架提供了一個有用的思考工具。在一個算力投資可能不再以過去的速度成長的世界裡，不管是因為能源限制、供應鏈問題、還是投資回報疑慮，AI 進步放緩的幅度可能比天真的線性外推所暗示的更大。不是放緩一半，而是放緩一半再乘以一個折扣。對那些把未來策略建立在「AI 能力持續指數成長」假設上的企業和政府來說，這個雙重減速效應值得納入風險評估。

獨立評估是安全的基礎設施

回到那個核心問題：AI 離完全閉合研發迴路還有多遠？Becker 的誠實回答是，我們不確定，而且目前的評測工具不夠好，沒辦法給出精確的答案。

METR 的旗艦指標 Time Horizon 顯示，AI 能可靠完成的任務難度正在指數成長，Opus 4.5 的表現甚至暗示翻倍速度可能從七個月加快到四個月。但 Becker 自己就是第一個提醒你這張圖的侷限的人：它只測量範圍明確、可自動評分的軟體任務，跟閉合完整研發迴路所需要的那種混亂、跨領域、跨實體世界的能力相去甚遠。

他心目中的理想評估方式聽起來幾乎像是一個思想實驗：「在某種意義上，我想做的金標準評估就是給 AI 一堆工具和資源，輸入『自動化研發』，然後去看它做了什麼。」不是給 AI 精心設計的考題，而是給它一個開放式的目標，觀察它怎麼分解問題、獲取資源、處理障礙。這種開放式評估之所以重要，是因為閉合研發迴路所需要的能力，不是任何一組有限的 benchmark 能涵蓋的。

這也是為什麼 METR 的獨立性如此重要。「我認為擁有這個獨立的專業來源至關重要，」Becker 說。「這面鼓我可以永遠敲下去。」如果能力評測由 AI 實驗室自己做，他們有動機選擇讓自己看起來最好的指標。如果由政府做，可能缺乏足夠的技術深度。在 AI 能力每幾個月就大幅提升的當下，獨立的能力評估不是學術奢侈品，而是一種安全基礎設施，就像核電廠需要獨立的安全監督、金融系統需要獨立的審計一樣。METR 的發現讓我們知道，AI 離真正的能力爆炸門檻可能比最樂觀的預測所暗示的還要遠，因為那個門檻不只是軟體問題，而是包含整個實體世界的全迴路問題。但如果那個門檻有一天真的被跨過了，我們最好已經有足夠的獨立觀測能力，能在它發生的時候看見它。