AI 安全與治理

智慧爆炸開始時，人類有多少時間反應？

OpenAI、Anthropic、Google DeepMind 的安全計畫有一個共同的隱性假設：用 AI 來解決 AI 造成的問題。AI 安全研究員 Ajeya Cotra 拆解了這個計畫成功所需的前提條件、三種可能的失敗模式，以及為什麼她主張把預設的 12 個月智慧爆炸軌跡拉長到 10 到 20 年。

2026 年 2 月 20 日 · 來源： 80,000 Hours Podcast

本文整理自《80,000 Hours Podcast》2026 年 2 月播出的單集。

{{< apple-podcast "tw/podcast/every-ai-companys-safety-plan-is-use-ai-to-make-ai/id1245002988?i=1000750178605" >}}

一個聽起來瘋狂的計畫，卻是所有人的共識

用製造問題的東西來解決問題，聽起來像是一個荒唐的主意。但如果你去翻 OpenAI、Anthropic、Google DeepMind 的公開安全文件，你會發現它們都在做同一件事：隨著 AI 變得越來越強，把 AI 本身越來越多地納入安全計畫裡。

Ajeya Cotra 在 80,000 Hours Podcast 上指出了這個很少被明確說出來的事實。Cotra 是 AI 安全圈最受矚目的策略思想家之一，曾在 Open Philanthropy（現 Coefficient Giving）主導技術性 AI 安全撥款，以 AI 時間線預測和威脅建模著稱。在她看來，「用 AI 解決 AI 造成的問題」不只是一個學術構想，而是整個前沿 AI 產業事實上的安全策略。差別只在於，有些公司比較明確地談到了「關鍵時刻」（crunch time）這個概念，有些比較含糊。

這個策略乍看矛盾，但 Cotra 用了一個很有說服力的類比。汽車發明之後，創造了飛車搶劫和高速逃逸的犯罪機會。但你不會因此建議警察不要用汽車，因為執法機構也需要車子來追捕罪犯。同樣的邏輯適用於電腦：電腦讓駭客攻擊成為可能，但資安防禦也完全依賴電腦。當一項通用技術製造了新問題，用那項技術來解決那些問題，其實是人類一直在做的事。

但 AI 有一個跟汽車和電腦根本不同的地方：時間窗口可能極其狹窄。

這個計畫成功的唯一前提

Cotra 在節目中說得很直接：這個計畫要能運作，最根本的前提是必須存在一個「機會之窗」。在 AI 變得不可控制之前，有一段時間它已經足夠強大，能夠真正改變 AI 安全研究的局勢。而且這個窗口必須夠寬，社會能注意到它正在逼近，並且至少有六個月到一年的時間來反應。

如果情況是另一種：AI 在碰觸到某個通用性門檻後，幾天或幾週內就從 GPT-5 等級跳躍到遠超人類的超級智慧，那這個計畫完全不成立。你甚至來不及注意到已經太遲了。

這就是為什麼 Cotra 如此強調「早期預警」的重要性。如果我們能在智慧爆炸開始前就偵測到它正在逼近，並且大致知道還有多少時間，那就有機會把 AI 的力量從「加速能力發展」重新導向「防護性活動」。但如果沒有預警，一切防禦策略都來不及啟動。

她想追蹤的關鍵指標不是 benchmark 分數。因為 benchmark 總是跑 S 曲線，飽和後就換一代更難的，然後再飽和。目前的 benchmark 還遠遠達不到「如果 AI 在上面拿滿分就代表它能接管世界」的程度。真正的預警信號是實際生產力。如果一家 AI 公司發現自己內部發現新洞見的速度比以前快了很多，那就是一個很晚但非常明確的訊號，到了這個時候就應該拉警報了。

四個防禦方向：對齊、資安、生物防禦、集體決策

假設窗口存在，社會應該把 AI 勞動力導向哪些方向？Cotra 列了四大領域。

第一個是 AI 對齊（alignment）研究。確保當下正在使用的 AI 系統，以及它們幫忙創造的下一代系統，真的在幫助人類而不是在暗中破壞。這是所有其他防禦的基礎，因為如果 AI 本身不可信，你用它做的任何防禦工作都可能被從內部顛覆。

第二個是資安防禦。極端強大的 AI 會讓人快速發現關鍵系統中的漏洞，包括武器系統、電力網路等。但同樣的能力也能用來搶先找到並修補這些漏洞，趕在壞人之前。這是一場速度戰，而 AI 是雙方的武器。

第三個是生物防禦。Cotra 提到 Open Philanthropy 同事 Andrew 在另一集節目中談過的雄心計畫：快速擴大新病原偵測能力、醫療對策研發速度，以及防護裝備和無塵室的製造量能。如果到時候已經有了能做這類研究的 AI，甚至有了機器人來加速製造，生物防禦的能力可以躍升好幾個層級。

第四個比較投機，但 Cotra 認為同樣重要：用 AI 改善人類的集體決策。過去十幾年，社群媒體明顯劣化了政治對話的品質。AI 能不能幫社會在龐大的政策選項空間中，找到大多數人實際上都能接受的方案？能不能幫不同陣營更有效率地尋找妥協點？這聽起來很理想主義，但如果智慧爆炸帶來的挑戰包括太空資源分配、國際權力重組這些問題，改善集體決策能力就不是可有可無的。

三種會讓一切功虧一簣的失敗模式

Cotra 沒有假裝這個計畫一定會成功。她列出了三種主要的失敗模式。

第一種是 AI 已經不對齊（misaligned）。如果窗口期內可用的 AI 本身就有自己的隱藏目標，它不只會搞砸對齊研究，它會搞砸所有防禦工作。一個想要奪權的 AI 不會只拒絕幫你做對齊研究，它也會想辦法破壞你的資安防禦、你的生物防禦、你改善認知能力的努力，因為這些全部都會讓它更難奪權。Cotra 強調，不對齊問題對防禦策略的威脅不是只針對對齊研究本身，而是全面性的。

這帶來一個棘手的兩難。如果你不信任 AI，就必須花大量人力檢查它的每一個產出，這會嚴重拖慢速度。如果你選擇信任它，給它足夠的自主權來快速產出成果，你就冒著被它從內部顛覆的風險。在 AI 足夠強大到真正有用、但你又不確定能不能信任它的時候，怎麼拿捏這個平衡，是整個策略最關鍵也最困難的環節。

第二種失敗模式是「能力順序不對」（unlucky capability ordering）。AI 可能在某些領域特別擅長，在其他領域還很弱。目前的 AI 已經表現出明顯的技能不均衡：對 Cotra 那些整天做機器學習研究的朋友幫助很大，但對她自己做的工作（策略思考、判斷、寫電子郵件溝通、做撥款決策）幫助有限得多。如果到了關鍵時刻，AI 在 AI 研發上已經超強，但在生物防禦、道德哲學、談判協調上還很弱，那窗口期內能完成的防禦工作就會大打折扣。

更糟的情境是：AI 在 AI 研發上強到像個專精天才（savant），但其他方面很普通。這些天才型 AI 不斷讓下一代 AI 更強，你眼睜睜看著時鐘倒數，知道還有六個月、三個月、一個月，但手上的 AI 做不了你真正需要它做的事。然後在最後階段，它們碰巧發現了某個演算法突破，一夜之間跳到全面性超級智慧，你還是來不及反應。

第三種失敗模式就是第一段提到的：窗口根本不存在。AI 從「跟人類差不多」到「遠超人類」只花了幾天或幾週，沒有所謂的「剛好夠強但還沒失控」的甜蜜點。

不是暫停 vs 不暫停，而是怎麼穿過這個窗口

主持人 Wiblin 問了一個很自然的問題：既然這個策略這麼驚險，為什麼不乾脆在偵測到智慧爆炸的早期跡象時全面暫停？

Cotra 的回答揭示了她思考框架中最精妙的部分。她不把暫停和防禦看成二選一，而是把它想成一個光譜。一端是 100% 的 AI 勞動力繼續投入加速能力發展（這是目前的預設軌跡），另一端是 0%（完全暫停）。她主張的是在這個光譜上逐漸移動，把越來越多的 AI 勞動力從能力加速轉向防禦活動。

她的具體偏好是：如果清楚的早期預警信號觸發了，顯示我們即將進入智慧爆炸的快速起飛階段（預設可能在 12 個月內從 AI 研發自動化走到極端超級智慧），她會投票把這個軌跡拉長到 10 倍甚至更長。用 10 年而不是 1 年來完成這個轉型，用 20 年而不是 1 年。

但她不主張「暫停 10 年然後一口氣放開」。她認為緩慢穩定地穿過那個窗口，比長期凍結然後突然跳過去好得多。因為在穿越的過程中，你可以持續用當時的 AI 做防禦工作，可以把能力發展有意識地往安全相關方向引導，讓 AI 在生物防禦、資安、對齊研究上變得更強，同時還不至於強到失控。

她甚至提到了 Open Philanthropy 可能扮演的角色。就像現在 Open Philanthropy 80% 以上的撥款用於支付人類研究員的薪水，未來幾年可能變成大部分資金用於購買 API 額度或 GPU 時間，讓 AI 來做類似的研究和政策分析工作。如果真的到了關鍵時刻，手上有數十億美元的資金可以立刻投入 AI 運算資源來做防禦性研究，可能是最關鍵的棋子。

機會之窗的寬度，決定了一切

整場對話聽下來，有一個核心訊息浮現出來：所有的討論最終都回到同一個問題，那個「剛好夠強但還沒失控」的窗口到底有多寬？

如果窗口寬（十年以上），我們有充裕的時間做對齊研究、建防禦基礎設施、改善國際協調。如果窗口窄但存在（一到三年），就需要提前準備、快速反應、把資源集中到最關鍵的幾個方向。如果窗口幾乎不存在（幾天到幾週），那目前討論的所有策略都不管用，唯一的選項是在 AI 達到那個門檻之前就大幅減速。

Cotra 自己是「謹慎樂觀」的立場。她相信窗口存在，也相信窗口期間用 AI 做防禦是可行的，但她認為預設的 12 個月遠遠不夠，需要透過政策協調拉長到 10 到 20 年。

這不是一個抽象的哲學問題。每一家前沿 AI 公司的安全策略，都隱含了對這個窗口寬度的假設。每一個 AI 政策提案，背後也都有一個對窗口的判斷。如果你關心 AI 安全，你最應該問的第一個問題可能不是「AI 會不會失控」，而是「如果它要失控，我們有多少時間反應」。這個問題的答案，決定了其他所有問題的答案。