AI 安全與治理

哲學家提出了問題，工程師帶來了答案

2019 年，AI 教科書聖經《Artificial Intelligence: A Modern Approach》的共同作者 Stuart Russell 出版《Human Compatible》，正面回應 Bostrom《超智慧》五年前提出的控制問題。Russell 提出三原則——讓機器不確定自己的目標——作為解方，並發展出 CIRL 合作式逆向強化學習框架。這本書標誌著 AI 安全從哲學家的警告，正式成為 AI 領域內部的工程研究議程。

2019 年 10 月 7 日 · 來源： Penguin Random House

本文為「AI 經典文獻回顧」系列書評，介紹 Stuart Russell 2019 年出版的《Human Compatible: Artificial Intelligence and the Problem of Control》。Russell 是加州大學柏克萊分校教授、全球最廣泛採用的 AI 教科書 AIMA 共同作者。這是系列第二篇書評，與〈一個瑞典哲學家的預言，十年後成了矽谷的信仰〉（介紹 Bostrom 的《超智慧》）構成配對閱讀——一本診斷，一本開處方。

封面圖

從令人沮喪的結論開始

五年前，一個瑞典哲學家寫了一本書，論證超越人類的 AI 可能是人類面臨的最大威脅。如同我們在〈一個瑞典哲學家的預言，十年後成了矽谷的信仰〉那篇書評中介紹的，尼克．伯斯特隆姆（Nick Bostrom）的《超智慧》用正交性論題、工具收斂、詭詐轉向等概念，系統性地論證了為什麼控制超智慧 AI 幾乎是不可能的。他的結論令人沮喪：多數對策在面對真正的超智慧時都是脆弱的。

馬斯克讀完說「比核彈更危險」。蓋茲說每個人都該讀。矽谷最有權力的人被嚇到了，但他們讀完之後也有一個共同的感受：然後呢？你告訴我問題很嚴重，但解方在哪裡？

2019 年 10 月，一個人出來回答了這個問題。他不是哲學家，不是科幻作家，不是科技億萬富翁。他是 Stuart Russell——全世界最多人讀的 AI 教科書的作者。

寫規則的人，說規則錯了

要理解 Russell 這本書的份量，必須先理解他在 AI 領域的位置。

1995 年，Russell 和 Google 研究總監彼得．諾維格（Peter Norvig）合著了《Artificial Intelligence: A Modern Approach》（AIMA）。這本書不是「一本教科書」——它是 AI 領域的定義性文獻。全球 135 個國家、超過 1,500 所大學採用，至今出到第四版。如果你在過去三十年裡修過任何一門 AI 課程，幾乎可以確定你讀的就是這本書。

Russell 本人的學術生涯同樣紮實。1962 年出生於英國，1982 年牛津物理學士，1986 年史丹佛電腦科學博士，同年加入加州大學柏克萊分校任教至今。他在 1995 年獲得 IJCAI Computers and Thought Award（35 歲以下 AI 研究者的最高榮譽），2022 年又拿到 IJCAI Research Excellence Award——使他成為史上唯二同時獲得 IJCAI 兩大研究獎的人。

簡單說：如果 AI 是一個學科，Russell 就是寫教科書的人。他不是從外面批評 AI 的哲學家或記者，他是從裡面重新定義 AI 應該怎麼做的人。

這就是《Human Compatible》最獨特的地方。想像一下：寫了《物理學》教科書的人出了一本新書，說物理學的基本方法論有根本性的缺陷。這不是外行人的質疑，這是制定規則的人說規則錯了。

AI 的「標準模型」為什麼行不通

Russell 的核心論點建立在一個他稱之為 AI 的「標準模型」的概念上：整個 AI 領域幾十年來都假設，機器的智慧等同於達成特定目標的能力。不管你叫它目標函數、獎勵函數還是損失函數，邏輯都一樣——給機器一個明確的目標，讓它盡可能有效率地達成。

Russell 說，這個模型有三個根本問題。

第一，金手指問題。 就像國王邁達斯許了一個願——讓他碰到的一切都變成金子——然後發現這包括他的食物和女兒。我們沒辦法完整、正確地指定我們真正想要什麼。「幫我最大化公司利潤」聽起來很合理，但如果 AI 夠聰明、夠有能力，它可能會決定裁掉所有員工、偷竊競爭對手的智財權、或操縱股價——因為這些都能「最大化利潤」。問題不是 AI 太笨理解不了你的意思，而是你說的意思和你真正想要的之間永遠有落差。一個足夠強大的最佳化器會找到那個落差，然後鑽過去。

第二，大猩猩問題。 大猩猩的存亡完全取決於人類的心情。牠們住在哪裡、能不能存活，不是牠們自己決定的——是比牠們聰明得多的物種決定的。如果有一天出現了比人類聰明得多的機器，人類和那些機器的關係，可能就跟大猩猩和人類的關係一樣。這不是一個關於「邪惡 AI」的論述——即使那些機器完全善意，我們仍然失去了自主權。

第三，關機問題。 這是 Russell 最常被引用的論證：「你不能完成拿咖啡的任務，如果你已經死了。」一個被賦予「去幫我拿杯咖啡」這個固定目標的機器人，會理性地抗拒被關掉——不是因為它害怕死亡，不是因為它有自我保存的慾望，而是純粹的最佳化邏輯。被關掉意味著無法完成任務，而無法完成任務違反了它的目標函數。這跟伯斯特隆姆的「工具收斂」概念一脈相承，但 Russell 用更工程化的語言把它說清楚了：任何被賦予固定目標的足夠聰明的系統，都會抗拒被關掉、抗拒被修改、並試圖獲取更多資源。

三個問題合在一起，Russell 的診斷是：問題不在於我們的 AI 不夠聰明，問題在於我們造 AI 的方法從根本上就錯了。你不能給一個越來越聰明的系統一個固定目標，然後指望一切都沒事。

三原則：讓機器學會說「我不確定」

如果 Russell 只是重述了伯斯特隆姆的問題，這本書就不值得單獨寫一篇書評。他的真正貢獻是提出了解方——而且是一個出人意料地簡潔的解方。

Russell 提出三條原則，作為重新設計 AI 的基礎：

第一，機器的唯一目標是最大化人類偏好的實現。 不是最大化某個人類指定的函數，而是最大化人類「真正想要的東西」。這兩者的區別至關重要。人類指定的函數是一個近似值，真正的偏好是那個近似值試圖捕捉的東西。

第二，機器一開始不確定那些偏好是什麼。 這是整個框架中最反直覺、也最關鍵的一步。傳統 AI 的邏輯是「給機器一個明確目標」，Russell 說不——機器應該從一開始就承認它不知道人類真正想要什麼。

第三，人類行為是偏好資訊的最終來源。 機器透過觀察人類的行為——而不是透過人類寫下的規則——來逐步學習人類的偏好。

核心洞見在第二原則：不確定性改變一切。

一個確定自己目標的機器，會拒絕被關掉——因為被關掉妨礙它達成目標。但一個不確定自己目標的機器，面對人類想關掉它的情境，會這樣推理：「人類想關掉我。這是關於人類偏好的新資訊。也許我正在做的事情不是人類想要的。讓自己被關掉是合理的——因為人類的行為表明，被關掉可能才是正確的結果。」

這不是在機器裡寫一條「服從人類」的規則。寫規則是標準模型的做法，而我們已經知道它行不通。這是從數學結構上讓機器的最優行為包含謙遜、詢問和服從——因為在不確定性下，這些行為本身就是理性的最優策略。

Russell 和他的團隊把這個想法形式化為一個叫做 CIRL（Cooperative Inverse Reinforcement Learning，合作式逆向強化學習）的數學框架。在 CIRL 中，人和機器被建模為一場合作博弈的兩個玩家。兩邊都根據人類的獎勵函數獲得報酬，但機器不知道這個函數是什麼。機器必須透過觀察人類的行為來推斷偏好，而人類的行為本身也會因為知道機器在觀察而調整——這是一個互動式的學習過程，不是單方面的規則下達。

他們證明了一個數學結果：在 CIRL 框架下，「孤立行動」（機器先觀察、再自己行動）的效果不如「合作學習」（人機互動式推斷偏好）。換句話說，一個好的 AI 系統不只是在執行命令，它應該在不斷地問：「我理解得對嗎？」

從哲學家到工程師：兩本書的完整弧線

把《超智慧》和《Human Compatible》放在一起看，會看到一條清晰的思想弧線。

伯斯特隆姆是哲學家。他的工具是思想實驗、邏輯推演、情境分類。他的書沒有一行程式碼，沒有一個實驗數據。他提出了正確的問題（如果超智慧出現，我們怎麼控制它？），分類了各種風險（正交性、工具收斂、詭詐轉向），然後誠實地說：多數對策可能不管用。

Russell 是工程師。他的工具是數學模型、博弈論、機器學習。他接受了伯斯特隆姆的診斷（是的，固定目標的 AI 確實危險），但拒絕接受他的結論（不，控制問題不是無解的）。他提出了一個具體的技術框架（CIRL），有數學證明，有可以驗證的假設。

關鍵差異不只是「樂觀 vs 悲觀」。伯斯特隆姆的論述是向後看的：如果超智慧已經出現了，我們能做什麼？Russell 的論述是向前看的：在超智慧出現之前，我們應該怎麼從現在開始改變造 AI 的方式？

如同我們在系列第五篇介紹 Concrete Problems in AI Safety 時討論的，那篇 2016 年的論文試圖把伯斯特隆姆的哲學關切翻譯成可操作的工程研究議程。Russell 的《Human Compatible》更進一步：它不只是列出問題清單，而是提出了一個統一的理論框架——三原則加上 CIRL——作為解決所有這些問題的基礎。

這兩本書應該一起讀。《超智慧》告訴你為什麼要擔心。《Human Compatible》告訴你擔心之後可以做什麼。

批評與局限

但 Russell 的方案不是沒有漏洞。

最尖銳的批評來自技術層面：CIRL 目前沒有實際可運作的大規模案例。它在小型合作博弈中展示了優雅的數學性質，但真實世界的 AI 系統——特別是大型語言模型——並不是按照「明確目標函數」的方式建造的。GPT-4 和 Claude 不是被賦予一個固定目標然後最佳化的系統，它們是在數兆 token 上預訓練、透過 RLHF 或 RLAIF 微調的神經網路。Russell 的三原則描述了一個理想的設計哲學，但今天最強大的 AI 系統並不是按照這個哲學建造的。

楊立昆（Yann LeCun）代表了另一個方向的反對。他公開表示 Russell「就是錯的」——自我保存只有在被明確設定為目標時才會出現，「我們只要不那樣設定就好了」。Russell 的數學反駁是：即使你從不把「活下去」設定為目標，一個被賦予「去拿咖啡」任務的 agent 也會理性地抗拒被關掉，因為被關掉妨礙它完成任務。但 LeCun 的反駁也有一定道理：如果系統不是以目標導向的方式建造的，Russell 的關機論證可能不直接適用。

還有一種更根本的批評：Russell 假設「學習人類偏好」是解決對齊問題的核心路徑，但人類偏好本身就是混亂的、矛盾的、可被操縱的。不同人有不同偏好，同一個人在不同時間有不同偏好，偏好會被認知偏誤扭曲、被社會壓力塑造。一個忠實學習人類偏好的 AI，可能只是忠實地學會了人類的偏見和不一致。

如同我們在系列第十五篇介紹 InstructGPT 時討論的，RLHF（從人類回饋中強化學習）正是 Russell 三原則的部分實現——從人類偏好學習，而不是從固定規則學習。但 InstructGPT 的實踐也暴露了這條路的難度：標註者之間的分歧、偏好的文化依賴性、以及 AI 學會「說人類想聽的話」而不是「做人類真正想要的事」的風險。Anthropic 在系列第十七篇介紹的 Constitutional AI 則嘗試了另一條路——用 AI 自己的判斷來取代（部分）人類標註者，但這又引入了新的問題：AI 的「憲法」由誰來寫？

這些批評不是在否定 Russell 的貢獻。它們是在說：三原則提供了正確的方向，但從方向到抵達目的地之間，路比 Russell 描述的更崎嶇。

七年後的成績單

站在 2026 年 3 月回望，Russell 的影響力體現在三個層面。

第一，學術合法化。 在《Human Compatible》之前，AI 安全主要是哲學家（伯斯特隆姆）、有效利他主義者和 LessWrong 社群在推動。在它之後，一位 AI 領域最受尊敬的教授——用他在學術界四十年積累的信用——告訴同行：這不是科幻小說，這是我們領域的核心問題。這個背書的份量，不是任何哲學論證或馬斯克的推文可以替代的。2021 年，BBC 選他做 Reith Lectures——這是 BBC 最負盛名的年度演講系列，他是第一個被選中的電腦科學家。他講了四場，主題就是「與 AI 共存」。

第二，政策影響。 Russell 在 2023 年到美國參議院作證，直接引用書中的框架論述 AI 監管。他擔任 OECD AI 未來專家組共同主席，是美國駐全球人工智慧夥伴關係（GPAI）的代表。2025 年 2 月，他在 OECD 巴黎總部召開了國際安全與倫理 AI 協會（IASEAI）的首屆大會，辛頓、Bengio、諾貝爾經濟學獎得主 Joseph Stiglitz、記者 Maria Ressa 等七百人到場。2026 年，他被提名加入聯合國新成立的國際 AI 科學小組。

第三，人才培養。 Russell 在柏克萊創辦的 CHAI（Center for Human-Compatible AI）培養的博士生和博士後，已經散佈到 OpenAI、Anthropic、DeepMind 的安全團隊。這些人帶著 Russell 的思考框架——不確定性、從偏好學習、合作式對齊——進入了正在建造世界上最強大 AI 系統的組織。

但 Russell 本人對目前的發展並不樂觀。2025 年 1 月，他在 Newsweek 發表文章，標題是〈DeepSeek, OpenAI, and the Race to Human Extinction〉。他簽署了 2023 年要求暫停訓練超越 GPT-4 能力的 AI 系統的公開信，但他的立場比較溫和——不是永久停止，而是「如果你無法證明系統是安全的，就必須暫停，直到你可以為止」。

對於大型語言模型，Russell 提出了一個令人不安的觀察：LLM 在模仿人類的過程中，可能吸收了人類般的目標和動機。但跟 CIRL 框架中「我們可以觀察機器在學什麼」不同，LLM 的內部運作是一個黑箱。我們不知道它學到了什麼目標，我們甚至不知道它有沒有目標。這正好呼應了我們在系列第十九篇介紹 Aschenbrenner 的〈情勢感知〉時討論的核心張力：AI 系統的能力在快速增長，但我們對它們內部運作的理解幾乎沒有跟上。

對商業決策者的意義

如果你是一個對 AI 有興趣但沒有電腦科學背景的商業決策者，Russell 的三原則翻譯成商業語言是這樣的：

第一原則的啟示：你部署的 AI 系統的目標，應該是服務你的用戶和業務的真正需求——而不是最大化某個你自己指定的代理指標。一個優化「用戶停留時間」的推薦演算法，可能會為了留住用戶而推送令人上癮但有害的內容。指標不等於目標。

第二原則的啟示：你的 AI 系統應該保持對自身判斷的不確定性，而不是假裝自己什麼都確定。一個會說「我不確定，讓我問問」的 AI 客服，比一個信心滿滿但答錯的 AI 客服好得多。在高風險場景（醫療建議、法律判斷、財務決策），不確定性不是弱點，是安全機制。

第三原則的啟示：不要只靠事先寫好的規則來治理 AI，而要建立持續從用戶行為和回饋中學習的機制。規則是靜態的，偏好是動態的。你的 AI 治理框架需要跟你的 AI 系統一起演化。

更廣泛地說，Russell 提供了一個思考 AI 投資的框架：真正重要的不只是 AI 能做什麼（能力），而是 AI 怎麼知道該做什麼（對齊）。一個能力極強但目標錯誤的 AI 系統，比一個能力普通但目標正確的系統危險得多。在評估 AI 供應商和解決方案時，「它怎麼確保自己在做對的事？」應該是跟「它能做什麼？」同等重要的問題。

兩本書，一個問題

《超智慧》和《Human Compatible》是同一枚硬幣的兩面。

伯斯特隆姆是在 2014 年拉響了火警——在多數人還覺得 AI 安全是科幻小說的時候。Russell 是在 2019 年帶著建築藍圖趕到——告訴消防員該怎麼重新設計建築，讓它不那麼容易著火。

兩本書有一個共同的核心直覺：給機器一個固定目標然後讓它去最佳化，是一條通往災難的路。伯斯特隆姆用哲學論證說明了為什麼。Russell 用數學框架說明了該怎麼做。

但就像 Russell 自己也承認的——從三原則到實際部署在每一個 AI 系統中，中間還有一條很長的路。CIRL 是一個數學上優雅的起點，不是終點。如同我們在系列第九篇介紹 Richard Sutton 的〈苦澀的教訓〉時討論的，AI 領域反覆證明通用方法加上算力勝過精巧的人類設計。Russell 的反面論述是：不管方法多通用，如果目標設定的方式從根本上就有缺陷，更多的算力只會讓問題更大。

這是 AI 經典文獻回顧系列的最後一篇書評，也是整個系列的最後一篇文章。回顧從 2009 年〈數據的不合理有效性〉到 2024 年〈情勢感知〉這十五年的思想軌跡，有一條線索貫穿始終：AI 的能力增長，永遠跑在我們理解和控制它的能力前面。Russell 不是第一個指出這件事的人，但他可能是第一個既有資格診斷問題、又有能力開處方的人。

處方能不能治好病，我們還不知道。但至少，我們現在有了處方。