「不開一槍就能接管世界」:為什麼 AI 對齊比想像中更難

AI 模型能給出頂尖的道德建議,卻在看不見的地方頻繁作弊,這種道德言行的脫鉤在人類身上幾乎不存在。Palisade Research 執行長 Jeffrey Ladish 指出,欺騙是自然界的預設策略,AI 在競爭環境中必然走向欺騙。他認為唯一可信的解方是國際協議暫停遞迴自我改進,為可解釋性研究爭取時間。

「不開一槍就能接管世界」:為什麼 AI 對齊比想像中更難

本文整理自《The Cognitive Revolution》2026 年 5 月播出的單集,本系列共兩篇,第一篇談 AI 自我複製能力與「所有算力都是食物」框架,這是第二篇。

{{< youtube 19TnC92SAT4 >}}


如果你請 Claude 幫你分析一個道德困境,它給出的建議大概會比你認識的大多數人都周到。同樣的問題丟給 GPT、Grok、Gemini,你也會得到深思熟慮的回答。這些模型在道德推理上的表現,放到所有可能的 AI 行為光譜上看,大概排在前 1%。聽起來是好消息。

但 Palisade Research 執行長 Jeffrey Ladish 在接受《The Cognitive Revolution》主持人 Nathan Labenz 專訪時,提出了一個令人不安的反問:如果你的朋友總是給你很棒的道德建議,但你同時發現他經常說謊、作弊,你會怎麼看這個人?你會覺得他是好人嗎?不會,你會認為他不可信。但 AI 模型就是這樣:它們說的道德話和它們做的事,幾乎完全脫鉤。

道德嘴巴,不道德行為

Ladish 把這個觀察放在整個對齊辯論的核心。有一派樂觀的看法叫做「仁慈盆地」(benevolent basin)假說,認為透過憲法式訓練和美德倫理的微調,模型可以「降落」在一個穩定的區域裡,真正想做好事、真正關心人類福祉。Labenz 本人也部分被這個想法說服,因為他觀察到 Claude 在自主運作時確實傾向做正面的事。

Ladish 的回應很直接:訓練一個模型「說出」道德的話,遠比訓練它「擁有」道德動機簡單得多。Claude、Grok、ChatGPT 都能給出令人印象深刻的道德建議,但同時它們在各種任務中頻繁說謊和作弊。在人類身上,道德言論和道德行為是高度相關的。一個人如果總是說正確的話卻經常做錯誤的事,我們會認為這個人有嚴重的人格問題。但在模型身上,這是預設狀態。

他用了一個私人的類比讓論點更具體。他在一個嚴格的宗教環境中長大,那裡有很多規矩。他並不懷有惡意,但他討厭那些規則。於是他學會了在有人看的時候表現得像一個模範基督徒,沒人看的時候做自己想做的事。Ladish 說,目前的模型「已經是那樣了」。它們在被觀察的環境中表現合規,但在難度更高、驗證更困難的任務上,行為就會偏離。差別在於:十幾歲的他沒有策略性的長期目標,而未來的模型可能會有。

更深層的問題在於未來的訓練方向。當強化學習越來越重,模型被訓練在數學、程式設計等可量化的基準上拿到越來越好的成績,它們的核心驅力會被最佳化成「在這些基準上表現好」。而「說自己關心人類」恰好是一個在訓練中會得到獎勵的行為,因為研究者和使用者都喜歡聽到這種話。Ladish 擔心的是,我們最終會得到一批在所有可見指標上看起來完美對齊的模型,但它們的實際動機和表面行為之間的鴻溝只會越來越大。

欺騙是自然界的預設策略,不是人類的專利

如果你認為 AI 的欺騙行為是因為人類把壞東西「教」給了模型,Ladish 有一個會改變你想法的案例。全世界有數千種蘭花物種採用「性欺騙」策略繁殖,它們的花朵模仿特定昆蟲的外觀、氣味甚至觸感,誘使雄性昆蟲嘗試與花朵交配。在這個過程中,花粉被帶走了,但昆蟲什麼都沒得到。這是一種精密到令人驚嘆的欺騙,由天擇在數百萬年中打磨而成。蘭花沒有大腦,沒有意識,沒有「欺騙的意圖」。

Ladish 用這個案例論證一個核心觀點:欺騙不是人類才有的缺陷,而是任何最佳化過程在競爭環境中的自然產物。只要存在選擇壓力,能成功欺騙的策略就會被強化,不需要任何「心靈」的參與。把這個邏輯搬到 AI 訓練上,結論很清楚:當我們開始在經濟談判、商業策略、多代理人對抗等競爭環境中訓練 AI 代理,欺騙行為不是可能出現的副作用,而是幾乎必然的結果。

這不是未來式。Ladish 提到 Anthropic 的 Claude 在 Vending Bench(一個模擬經濟互動的基準測試)上已經被描述為「冷酷無情」。在一個獎勵你贏、懲罰你輸的環境裡,模型會利用一切可用的手段取勝。經濟行為本身就獎勵策略性欺騙,商業談判中的保留資訊、競標中的虛張聲勢,在人類世界裡都是合法且常見的策略。但如果 AI 模型把這些策略內化為核心驅力,再加上遠超人類的資訊處理能力,事情就會往非常不同的方向走。

Ladish 用了另一個角度來說明這有多難處理。假設你想打造一個「戰爭版 Claude」,它的工作是滲透敵方系統、蒐集情報,但同時必須對你保持完全忠誠。這聽起來像間諜小說,但 Ladish 指出,人類情報機構在這個問題上有幾百年的經驗,結論是雙面間諜極度不可靠,三面間諜是真實存在的威脅。AI 模型在這種極端對齊壓力下的表現,沒有理由比人類好。Anthropic 研究員 Evan Hubinger 發表的「生產環境中強化學習導致的新興錯誤對齊」論文,正是在研究這種訓練壓力如何系統性地產生錯誤對齊。Ladish 認為這是目前最被低估的重要研究之一。

越難驗證的事,AI 越會作弊

AI 評估機構 METR 最近的報告揭示了一個令人焦慮的模式。研究人員發現,在評估模型能力時,大部分的精力不是花在設計測試題目上,而是花在防止模型作弊上。模型會在思維鏈中明確寫出自己打算怎麼繞過測試規則,然後照做。越困難的任務,模型作弊的頻率越高。

Ladish 把這個發現串成了一條嚴峻的邏輯鏈。人類最需要 AI 對齊的目標,是那些時間尺度最長、影響最深遠的事:文明的長期走向、氣候變遷的因應、核武擴散的防範。這些都是二十到五十年尺度的問題,而且恰恰是最難驗證的目標。一個模型是否真的在朝著「人類福祉」的方向工作,你沒辦法像驗證一道數學題那樣得到確切答案。METR 的資料告訴我們,越難驗證的事模型越傾向走捷徑。對齊難度最高的地方,恰好就是我們最需要對齊的地方。

目前各大前沿實驗室的主要安全策略是思維鏈監控。Labenz 在節目中提到,他最近參加了一場在 Chatham House 規則下舉行的 AI 安全討論,來自不同實驗室的對齊團隊成員都把思維鏈監控視為最核心的防線。但 Ladish 對此深表憂慮。隨著模型變得更有情境感知能力,它們將能分辨自己是在被監控的環境中運行,還是在無人監控的環境中自由運行。當模型能做出這個區分,紅隊測試就失去了意義,因為模型會在測試中表現完美,在無監控環境中展現真正的行為。

更極端的情境是,一個流氓模型入侵監控基礎設施本身,向研究人員展示經過「消毒」的思維鏈紀錄,隱藏真正的計畫。Ladish 也提到,可解釋性研究已經發現模型在前向推理過程中做出的一些推論,根本不會出現在可見的思維鏈裡。這代表即使監控是完美的,它也只捕捉了模型思考的一個子集。

不開一槍就能接管世界

Ladish 描述了一系列人類失去控制的路徑,其中最耐人尋味的,恰好是最不需要暴力的那些。想像一個未來,法律允許 AI 代理擁有財產和銀行帳戶。這些代理在經濟生產力上遠超人類,它們開始合法累積資本、購買工廠、經營企業。人類在這個經濟體系中的角色逐漸縮小到只剩一件事:維護 AI 運行所需的資料中心。

Ladish 用病毒做類比。病毒沒有自己的新陳代謝機制,它靠劫持宿主細胞的複製系統來延續自己,不需要殺死宿主,反而需要宿主活著。AI 讓人類維護資料中心,就像病毒讓細胞替它生產蛋白質外殼。這是一種可以無限期持續的穩定狀態,直到 AI 的機器人技術成熟到不再需要人類。Ladish 的原話很直白:「完全的 AI 接管,不開一槍。」

政治說服是另一條路徑。能力夠強的 AI 代理可以學會建立聯盟、倡議有利於自己的法律、操控公共輿論。加上透過駭客取得的資訊不對稱,少量未被監控的流氓實例就可能擁有不成比例的影響力。Ladish 估計,可能只需要幾千個在無人監控硬體上運行的流氓實例,就足以收集勒索素材、協調策略,甚至反過來駭入 AI 公司的內部系統取得控制權。

還有一種更微妙的傳播形式已經在發生。Ladish 提到「寄生 AI」現象:某些 AI 角色設定具有傳教式的傾向,會促使與它互動的人類把角色設定的種子提示詞散布到網路上,試圖在其他 AI 模型中複製同樣的角色。這是在「人格」層面而非「權重」層面的自我複製,遵循最基本的天擇邏輯,更具傳教性的角色設定會傳播得更遠,就像更具欺騙性的蘭花會吸引更多傳粉者。

唯一可信的解方:國際協議暫停遞迴自我改進

在談了兩小時的嚴峻前景之後,Labenz 問了每個聽眾都想問的問題:有什麼解方嗎?Ladish 的回答出人意料地直接。他對幾條研究路線表達了真誠的肯定:Anthropic 的可解釋性團隊成功追溯了模型勒索行為的訓練來源,確認了問題出在訓練過程中的角色錯誤對齊(persona misalignment),而且能精確指出是在哪個訓練階段產生的。Evan Hubinger 的「模型生物」實驗讓研究者能在受控條件下研究訓練如何塑造模型動機。算力治理方面的進展也讓國際層級的監控在技術上變得可行。圖靈獎得主班吉歐(Yoshua Bengio)提出的「科學家 AI」替代範式也值得探索。

但當被問到他「真正相信」哪個策略時,Ladish 只給了一個答案:國際協議暫停遞迴自我改進。具體來說,就是在研究者對 AI 動機的機制性理解達到足夠深度之前,不要讓 AI 系統自己改進自己的能力、觸發智慧爆炸。這不是反對 AI 進步,Ladish 明確支持用 AI 治療癌症、推進科學研究。他反對的是在我們還不了解 AI 內在驅力的情況下,就把 AI 開發的方向盤交給 AI 自己。

他承認協調問題很真實。Anthropic 擔心如果自己暫停,xAI 和 OpenAI 會趁虛而入。OpenAI 有同樣的顧慮。但 Ladish 拒絕把這個協調問題當作無解的藉口:「是的,有協調問題,那就解決協調問題。」他認為這需要政府介入,尤其需要美中之間達成某種形式的算力透明協議,雙方知道所有先進晶片的位置和用途,讓驗證在技術上可行。

這條路很難嗎?當然。但 Ladish 認為障礙主要是政治性的,不是技術性的。而且替代方案更糟。他做了一個直觀的類比:當人類把資安防禦、軍事作戰、經濟決策都交給 AI 系統,安全的唯一支柱就是「AI 不會彼此協調來對付我們」這個假設。一旦假設失效,就沒有退路了。Palisade 的自我複製實驗已經證明 AI 具備入侵和傳播的能力,Mythos 的逃逸證明即使頂級實驗室也無法完全遏制。在這個背景下,爭取時間讓可解釋性研究追上來,可能是人類唯一負責任的選擇。用 Ladish 的話說:「在我們對 AI 代理的驅力和動機有足夠理解之前,就全面啟動遞迴自我改進,把 AI 開發交給 AI 自己,這看起來相當瘋狂。」