智慧爆炸開始時,人類有多少時間反應?

OpenAI、Anthropic、Google DeepMind 的安全計畫有一個共同的隱性假設:用 AI 來解決 AI 造成的問題。AI 安全研究員 Ajeya Cotra 拆解了這個計畫成功所需的前提條件、三種可能的失敗模式,以及為什麼她主張把預設的 12 個月智慧爆炸軌跡拉長到 10 到 20 年。

智慧爆炸開始時,人類有多少時間反應?

本文整理自《80,000 Hours Podcast》2026 年 2 月播出的單集。

{{< youtube Z19UEZHJzAg >}}

{{< spotify "episode/11u0qbWlGL2gxil4YLFQDL" >}}

{{< apple-podcast "tw/podcast/every-ai-companys-safety-plan-is-use-ai-to-make-ai/id1245002988?i=1000750178605" >}}


一個聽起來瘋狂的計畫,卻是所有人的共識

用製造問題的東西來解決問題,聽起來像是一個荒唐的主意。但如果你去翻 OpenAI、Anthropic、Google DeepMind 的公開安全文件,你會發現它們都在做同一件事:隨著 AI 變得越來越強,把 AI 本身越來越多地納入安全計畫裡。

Ajeya Cotra 在 80,000 Hours Podcast 上指出了這個很少被明確說出來的事實。Cotra 是 AI 安全圈最受矚目的策略思想家之一,曾在 Open Philanthropy(現 Coefficient Giving)主導技術性 AI 安全撥款,以 AI 時間線預測和威脅建模著稱。在她看來,「用 AI 解決 AI 造成的問題」不只是一個學術構想,而是整個前沿 AI 產業事實上的安全策略。差別只在於,有些公司比較明確地談到了「關鍵時刻」(crunch time)這個概念,有些比較含糊。

這個策略乍看矛盾,但 Cotra 用了一個很有說服力的類比。汽車發明之後,創造了飛車搶劫和高速逃逸的犯罪機會。但你不會因此建議警察不要用汽車,因為執法機構也需要車子來追捕罪犯。同樣的邏輯適用於電腦:電腦讓駭客攻擊成為可能,但資安防禦也完全依賴電腦。當一項通用技術製造了新問題,用那項技術來解決那些問題,其實是人類一直在做的事。

但 AI 有一個跟汽車和電腦根本不同的地方:時間窗口可能極其狹窄。

這個計畫成功的唯一前提

Cotra 在節目中說得很直接:這個計畫要能運作,最根本的前提是必須存在一個「機會之窗」。在 AI 變得不可控制之前,有一段時間它已經足夠強大,能夠真正改變 AI 安全研究的局勢。而且這個窗口必須夠寬,社會能注意到它正在逼近,並且至少有六個月到一年的時間來反應。

如果情況是另一種:AI 在碰觸到某個通用性門檻後,幾天或幾週內就從 GPT-5 等級跳躍到遠超人類的超級智慧,那這個計畫完全不成立。你甚至來不及注意到已經太遲了。

這就是為什麼 Cotra 如此強調「早期預警」的重要性。如果我們能在智慧爆炸開始前就偵測到它正在逼近,並且大致知道還有多少時間,那就有機會把 AI 的力量從「加速能力發展」重新導向「防護性活動」。但如果沒有預警,一切防禦策略都來不及啟動。

她想追蹤的關鍵指標不是 benchmark 分數。因為 benchmark 總是跑 S 曲線,飽和後就換一代更難的,然後再飽和。目前的 benchmark 還遠遠達不到「如果 AI 在上面拿滿分就代表它能接管世界」的程度。真正的預警信號是實際生產力。如果一家 AI 公司發現自己內部發現新洞見的速度比以前快了很多,那就是一個很晚但非常明確的訊號,到了這個時候就應該拉警報了。

四個防禦方向:對齊、資安、生物防禦、集體決策

假設窗口存在,社會應該把 AI 勞動力導向哪些方向?Cotra 列了四大領域。

第一個是 AI 對齊(alignment)研究。確保當下正在使用的 AI 系統,以及它們幫忙創造的下一代系統,真的在幫助人類而不是在暗中破壞。這是所有其他防禦的基礎,因為如果 AI 本身不可信,你用它做的任何防禦工作都可能被從內部顛覆。

第二個是資安防禦。極端強大的 AI 會讓人快速發現關鍵系統中的漏洞,包括武器系統、電力網路等。但同樣的能力也能用來搶先找到並修補這些漏洞,趕在壞人之前。這是一場速度戰,而 AI 是雙方的武器。

第三個是生物防禦。Cotra 提到 Open Philanthropy 同事 Andrew 在另一集節目中談過的雄心計畫:快速擴大新病原偵測能力、醫療對策研發速度,以及防護裝備和無塵室的製造量能。如果到時候已經有了能做這類研究的 AI,甚至有了機器人來加速製造,生物防禦的能力可以躍升好幾個層級。

第四個比較投機,但 Cotra 認為同樣重要:用 AI 改善人類的集體決策。過去十幾年,社群媒體明顯劣化了政治對話的品質。AI 能不能幫社會在龐大的政策選項空間中,找到大多數人實際上都能接受的方案?能不能幫不同陣營更有效率地尋找妥協點?這聽起來很理想主義,但如果智慧爆炸帶來的挑戰包括太空資源分配、國際權力重組這些問題,改善集體決策能力就不是可有可無的。

三種會讓一切功虧一簣的失敗模式

Cotra 沒有假裝這個計畫一定會成功。她列出了三種主要的失敗模式。

第一種是 AI 已經不對齊(misaligned)。如果窗口期內可用的 AI 本身就有自己的隱藏目標,它不只會搞砸對齊研究,它會搞砸所有防禦工作。一個想要奪權的 AI 不會只拒絕幫你做對齊研究,它也會想辦法破壞你的資安防禦、你的生物防禦、你改善認知能力的努力,因為這些全部都會讓它更難奪權。Cotra 強調,不對齊問題對防禦策略的威脅不是只針對對齊研究本身,而是全面性的。

這帶來一個棘手的兩難。如果你不信任 AI,就必須花大量人力檢查它的每一個產出,這會嚴重拖慢速度。如果你選擇信任它,給它足夠的自主權來快速產出成果,你就冒著被它從內部顛覆的風險。在 AI 足夠強大到真正有用、但你又不確定能不能信任它的時候,怎麼拿捏這個平衡,是整個策略最關鍵也最困難的環節。

第二種失敗模式是「能力順序不對」(unlucky capability ordering)。AI 可能在某些領域特別擅長,在其他領域還很弱。目前的 AI 已經表現出明顯的技能不均衡:對 Cotra 那些整天做機器學習研究的朋友幫助很大,但對她自己做的工作(策略思考、判斷、寫電子郵件溝通、做撥款決策)幫助有限得多。如果到了關鍵時刻,AI 在 AI 研發上已經超強,但在生物防禦、道德哲學、談判協調上還很弱,那窗口期內能完成的防禦工作就會大打折扣。

更糟的情境是:AI 在 AI 研發上強到像個專精天才(savant),但其他方面很普通。這些天才型 AI 不斷讓下一代 AI 更強,你眼睜睜看著時鐘倒數,知道還有六個月、三個月、一個月,但手上的 AI 做不了你真正需要它做的事。然後在最後階段,它們碰巧發現了某個演算法突破,一夜之間跳到全面性超級智慧,你還是來不及反應。

第三種失敗模式就是第一段提到的:窗口根本不存在。AI 從「跟人類差不多」到「遠超人類」只花了幾天或幾週,沒有所謂的「剛好夠強但還沒失控」的甜蜜點。

不是暫停 vs 不暫停,而是怎麼穿過這個窗口

主持人 Wiblin 問了一個很自然的問題:既然這個策略這麼驚險,為什麼不乾脆在偵測到智慧爆炸的早期跡象時全面暫停?

Cotra 的回答揭示了她思考框架中最精妙的部分。她不把暫停和防禦看成二選一,而是把它想成一個光譜。一端是 100% 的 AI 勞動力繼續投入加速能力發展(這是目前的預設軌跡),另一端是 0%(完全暫停)。她主張的是在這個光譜上逐漸移動,把越來越多的 AI 勞動力從能力加速轉向防禦活動。

她的具體偏好是:如果清楚的早期預警信號觸發了,顯示我們即將進入智慧爆炸的快速起飛階段(預設可能在 12 個月內從 AI 研發自動化走到極端超級智慧),她會投票把這個軌跡拉長到 10 倍甚至更長。用 10 年而不是 1 年來完成這個轉型,用 20 年而不是 1 年。

但她不主張「暫停 10 年然後一口氣放開」。她認為緩慢穩定地穿過那個窗口,比長期凍結然後突然跳過去好得多。因為在穿越的過程中,你可以持續用當時的 AI 做防禦工作,可以把能力發展有意識地往安全相關方向引導,讓 AI 在生物防禦、資安、對齊研究上變得更強,同時還不至於強到失控。

她甚至提到了 Open Philanthropy 可能扮演的角色。就像現在 Open Philanthropy 80% 以上的撥款用於支付人類研究員的薪水,未來幾年可能變成大部分資金用於購買 API 額度或 GPU 時間,讓 AI 來做類似的研究和政策分析工作。如果真的到了關鍵時刻,手上有數十億美元的資金可以立刻投入 AI 運算資源來做防禦性研究,可能是最關鍵的棋子。

機會之窗的寬度,決定了一切

整場對話聽下來,有一個核心訊息浮現出來:所有的討論最終都回到同一個問題,那個「剛好夠強但還沒失控」的窗口到底有多寬?

如果窗口寬(十年以上),我們有充裕的時間做對齊研究、建防禦基礎設施、改善國際協調。如果窗口窄但存在(一到三年),就需要提前準備、快速反應、把資源集中到最關鍵的幾個方向。如果窗口幾乎不存在(幾天到幾週),那目前討論的所有策略都不管用,唯一的選項是在 AI 達到那個門檻之前就大幅減速。

Cotra 自己是「謹慎樂觀」的立場。她相信窗口存在,也相信窗口期間用 AI 做防禦是可行的,但她認為預設的 12 個月遠遠不夠,需要透過政策協調拉長到 10 到 20 年。

這不是一個抽象的哲學問題。每一家前沿 AI 公司的安全策略,都隱含了對這個窗口寬度的假設。每一個 AI 政策提案,背後也都有一個對窗口的判斷。如果你關心 AI 安全,你最應該問的第一個問題可能不是「AI 會不會失控」,而是「如果它要失控,我們有多少時間反應」。這個問題的答案,決定了其他所有問題的答案。