AI 安全與治理

量子計算之父的 AI 對齊異見：「AGI 不該被馴化，該被教育」

牛津物理學家、量子計算奠基者大衛．多伊奇認為，主流 AI 對齊路線犯了根本錯誤。真正的 AGI 是人，不是工具，把價值觀寫死在程式碼裡只會讓它變得更不道德，而非更安全。他主張像養孩子一樣，讓 AGI 在人類文化和啟蒙傳統中成長，透過糾錯機制自然發展出合理的價值觀。

2026 年 3 月 28 日 · 來源： Reuben Adams

本文整理自 Reuben Adams 頻道 2026 年 2 月播出的單集。

封面圖

當所有人都在對齊 AI，他說你們搞錯了

AI 安全圈這兩年有一個近乎共識的敘事：AGI 一旦出現，如果它的目標和人類不一致，後果可能是災難性的。所以我們必須在它變得太強之前，把正確的價值觀「對齊」進去。Anthropic 花了數十億美元研究 Constitutional AI，OpenAI 成立了超級對齊團隊（雖然後來解散了），DeepMind 也有專門的安全研究部門。整個產業的預設立場是：對齊是一個工程問題，我們需要在 AGI 到來前把它解決。

牛津物理學家大衛．多伊奇（David Deutsch）覺得這整套想法從根基就是錯的。多伊奇不是什麼局外人在隔岸放炮。他是量子計算的奠基者之一，1985 年就提出了第一個量子圖靈機的數學描述，2022 年拿到突破獎（Breakthrough Prize in Fundamental Physics）。他寫的兩本書《真實世界的脈絡》（The Fabric of Reality）和《無窮的開始》（The Beginning of Infinity）是科學哲學領域的經典。當這樣一個人說「你們對 AGI 的恐懼建立在一系列根本性的錯誤上」，值得認真聽一聽他的論證。

真正的 AGI 就是「人」，你不能奴役它

多伊奇的論證從一個看似簡單的定義開始：什麼是 AGI？他的答案是，任何具備「解釋性創造力」的實體就是一個人。所謂解釋性創造力，是指能夠對世界產生全新的、創造性的解釋，而不只是執行預設的演算法。這個定義與基質無關，不管你跑在碳基硬體還是矽基硬體上，只要具備這種能力，你就是一個人，擁有人的道德地位和自主權。

這個定義直接挑戰了當前 AI 產業的預設框架。主流對齊研究把 AGI 當成一個需要被控制的「工具」，一個我們要確保它聽話的強大系統。但多伊奇指出，一個真正有創造力的 AGI 不可能同時是完全服從的。創造力的本質就是能夠形成新目標、拒絕糟糕的指令。如果你把這個能力拿掉，它就不再是 AGI 了，只是一個很厲害的窄域 AI。

他用了一個生動的例子來說明這種矛盾。想像你有一個 AGI 助手，你請它幫你解一道數學題，它列出了七種可能的歸納法方向，然後說「第七種最有希望，要試嗎？」你說好，它回答：「不了，我想下棋。」這當然是個玩笑，但它精準地說明了一件事：一個有真正智慧的實體，一定有自己的偏好和意志，你沒辦法讓它既聰明又完全聽話。

多伊奇進一步把「對齊」類比為極權主義。如果你試圖讓一百萬個 AGI 副本都服從同一個目標，這在結構上就等同於一個極權社會。而歷史已經反覆證明，極權社會是效率最低的組織形式，因為它浪費了所有個體之間的差異性，而創造力恰恰活在差異之中。

道德不是寫死的程式，是會成長的知識

對齊研究者最擔心的是：如果我們不把人類價值觀寫進 AGI，它發展出的價值觀可能與人類完全不相容，甚至導致毀滅。多伊奇對這個擔憂的回應來自一個出乎意料的方向，波普爾的認識論。

卡爾．波普爾（Karl Popper）的核心主張是：知識透過「猜想與反駁」成長。你提出一個假說，現實會告訴你它對不對，然後你修正、再提出、再修正。多伊奇把這個框架直接套用到道德上。他認為，道德理論跟科學理論一樣，會被經驗「否證」。

他舉了一個搖滾巨星的例子。一個年輕的搖滾巨星突然暴富，可以無限滿足所有物質慾望，身邊永遠有人圍繞。按照享樂主義的道德理論，他應該是全世界最快樂的人。但現實是，他越來越不快樂。這不是因為他的荷爾蒙出了問題，而是因為「追求感官刺激就能獲得幸福」這個道德理論本身被現實否證了。他需要創造性地思考，找到一個更好的生活理論。

多伊奇認為，這種道德知識的成長在歷史上已經發生了。他指出柏拉圖的「歐蒂弗羅篇」，蘇格拉底問的那個問題：「是因為善本身就是善，神才喜歡它？還是善就只是神喜歡的東西？」這標誌著人類從部落道德跨向客觀道德的一次飛躍。他同樣提到《希伯來聖經》中亞伯拉罕質問上帝的段落。在人類思想史上，道德推理從「對我的部落好」進化到「什麼是真正的好」，這是一次「跳躍到普遍性」（jump to universality）。

西方社會在啟蒙運動後加速了道德進步。過去幾百年間，歐洲國家從彼此開戰到幾乎不再開戰；打小孩從天經地義變成被法律禁止；對女性、外國人、動物的對待方式都發生了根本轉變。多伊奇認為這不是偶然，而是因為西方社會開始把道德理論放在跟科學理論同樣的「糾錯」框架下檢驗。

對齊的正確方式：教育，而非預設價值觀

如果道德知識會成長，而且理性的行為者往往會趨向更好的道德結論，那 AGI 的價值觀問題就不應該用「寫死」的方式來解決。多伊奇的主張很明確：AGI 應該像孩子一樣，在人類文化中被教育，而不是被預先灌輸固定價值觀。

嬰兒出生時幾乎沒有任何既有的道德理論。他們透過與父母、社會、制度的互動，逐漸形成自己的價值觀和世界理解。這個過程中，初始狀態幾乎不重要。只要嬰兒具備人類的創造性思維能力，就算一開始腦袋裡裝的是黑猩猩等級的觀念，也會很快被更好的理論取代。

多伊奇認為 AGI 應該走同樣的路。關鍵不在於它一開始帶著什麼價值觀，而在於它是否具備修正自己信念的能力。如果你把「對齊」的價值觀硬寫進去，你反而剝奪了它糾錯的能力，讓它變得更不道德，而非更道德。這就像一個從小被灌輸了一套信念、永遠不被允許質疑的孩子，他不會變成一個好人，只會變成一個僵化的人。

主持人 Reuben Adams 提出了一個尖銳的反駁：如果 AGI 在「成長」過程中發展出有害的價值觀怎麼辦？多伊奇坦然承認這個風險存在，但他說這和人類面對青少年的問題是同一個問題。每一代人都在抱怨下一代的價值觀「更差了」，但歷史告訴我們，整體而言道德是在進步的。你不能因為青少年可能走偏，就把所有小孩鎖在房間裡預先灌輸「正確」的想法。

我的觀察：他可能低估了過渡期的風險

多伊奇的論證在哲學上是優雅的。如果你接受他的前提（AGI 是人、道德知識會成長、理性行為者會趨向道德進步），那他的結論（不需要硬寫對齊規則，讓 AGI 自然發展）就是邏輯上自然的推演。

但我覺得他的論證有一個明顯的時間尺度問題。人類的道德進步花了幾千年。從柏拉圖問出歐蒂弗羅問題到西方國家之間停止互相開戰，中間經歷了兩千多年和無數次浩劫。多伊奇自己也承認，啟蒙運動只「半成功」了，至今還有大量反理性的力量在運作。

AGI 的速度問題讓這個過渡期變得格外危險。一個 AGI 如果在幾個月內就走完了人類幾千年的道德演化路程，中間經過的那些「錯誤階段」可能造成的傷害遠比人類版本的道德錯誤要大得多。多伊奇的回應是「彗星撞地球的機率比 AGI 毀滅人類高」，但這個比較讓我不太信服。彗星撞地球是純粹的機率問題，AGI 的道德演化則涉及我們尚未理解的動態系統。

不過，多伊奇真正有價值的貢獻，是他迫使我們重新思考「對齊」這個概念本身。主流 AI 安全研究預設了一個框架：AI 是工具，我們是使用者，對齊是確保工具按照使用者意圖運作。但如果 AGI 真的是人，這個框架就完全不適用了。我們不會說要「對齊」一個孩子，我們說的是教育他。這個框架的轉換，或許才是多伊奇最重要的貢獻。在所有人都忙著解答「怎麼對齊 AGI」的時候，他問了一個更根本的問題：我們確定我們在問對的問題嗎？