量子計算之父的 AI 對齊異見:「AGI 不該被馴化,該被教育」

牛津物理學家、量子計算奠基者大衛.多伊奇認為,主流 AI 對齊路線犯了根本錯誤。真正的 AGI 是人,不是工具,把價值觀寫死在程式碼裡只會讓它變得更不道德,而非更安全。他主張像養孩子一樣,讓 AGI 在人類文化和啟蒙傳統中成長,透過糾錯機制自然發展出合理的價值觀。

量子計算之父的 AI 對齊異見:「AGI 不該被馴化,該被教育」

本文整理自 Reuben Adams 頻道 2026 年 2 月播出的單集。

{{< youtube CU2yj826NHk >}}


封面圖

當所有人都在對齊 AI,他說你們搞錯了

AI 安全圈這兩年有一個近乎共識的敘事:AGI 一旦出現,如果它的目標和人類不一致,後果可能是災難性的。所以我們必須在它變得太強之前,把正確的價值觀「對齊」進去。Anthropic 花了數十億美元研究 Constitutional AI,OpenAI 成立了超級對齊團隊(雖然後來解散了),DeepMind 也有專門的安全研究部門。整個產業的預設立場是:對齊是一個工程問題,我們需要在 AGI 到來前把它解決。

牛津物理學家大衛.多伊奇(David Deutsch)覺得這整套想法從根基就是錯的。多伊奇不是什麼局外人在隔岸放炮。他是量子計算的奠基者之一,1985 年就提出了第一個量子圖靈機的數學描述,2022 年拿到突破獎(Breakthrough Prize in Fundamental Physics)。他寫的兩本書《真實世界的脈絡》(The Fabric of Reality)和《無窮的開始》(The Beginning of Infinity)是科學哲學領域的經典。當這樣一個人說「你們對 AGI 的恐懼建立在一系列根本性的錯誤上」,值得認真聽一聽他的論證。

真正的 AGI 就是「人」,你不能奴役它

多伊奇的論證從一個看似簡單的定義開始:什麼是 AGI?他的答案是,任何具備「解釋性創造力」的實體就是一個人。所謂解釋性創造力,是指能夠對世界產生全新的、創造性的解釋,而不只是執行預設的演算法。這個定義與基質無關,不管你跑在碳基硬體還是矽基硬體上,只要具備這種能力,你就是一個人,擁有人的道德地位和自主權。

這個定義直接挑戰了當前 AI 產業的預設框架。主流對齊研究把 AGI 當成一個需要被控制的「工具」,一個我們要確保它聽話的強大系統。但多伊奇指出,一個真正有創造力的 AGI 不可能同時是完全服從的。創造力的本質就是能夠形成新目標、拒絕糟糕的指令。如果你把這個能力拿掉,它就不再是 AGI 了,只是一個很厲害的窄域 AI。

他用了一個生動的例子來說明這種矛盾。想像你有一個 AGI 助手,你請它幫你解一道數學題,它列出了七種可能的歸納法方向,然後說「第七種最有希望,要試嗎?」你說好,它回答:「不了,我想下棋。」這當然是個玩笑,但它精準地說明了一件事:一個有真正智慧的實體,一定有自己的偏好和意志,你沒辦法讓它既聰明又完全聽話。

多伊奇進一步把「對齊」類比為極權主義。如果你試圖讓一百萬個 AGI 副本都服從同一個目標,這在結構上就等同於一個極權社會。而歷史已經反覆證明,極權社會是效率最低的組織形式,因為它浪費了所有個體之間的差異性,而創造力恰恰活在差異之中。

道德不是寫死的程式,是會成長的知識

對齊研究者最擔心的是:如果我們不把人類價值觀寫進 AGI,它發展出的價值觀可能與人類完全不相容,甚至導致毀滅。多伊奇對這個擔憂的回應來自一個出乎意料的方向,波普爾的認識論。

卡爾.波普爾(Karl Popper)的核心主張是:知識透過「猜想與反駁」成長。你提出一個假說,現實會告訴你它對不對,然後你修正、再提出、再修正。多伊奇把這個框架直接套用到道德上。他認為,道德理論跟科學理論一樣,會被經驗「否證」。

他舉了一個搖滾巨星的例子。一個年輕的搖滾巨星突然暴富,可以無限滿足所有物質慾望,身邊永遠有人圍繞。按照享樂主義的道德理論,他應該是全世界最快樂的人。但現實是,他越來越不快樂。這不是因為他的荷爾蒙出了問題,而是因為「追求感官刺激就能獲得幸福」這個道德理論本身被現實否證了。他需要創造性地思考,找到一個更好的生活理論。

多伊奇認為,這種道德知識的成長在歷史上已經發生了。他指出柏拉圖的「歐蒂弗羅篇」,蘇格拉底問的那個問題:「是因為善本身就是善,神才喜歡它?還是善就只是神喜歡的東西?」這標誌著人類從部落道德跨向客觀道德的一次飛躍。他同樣提到《希伯來聖經》中亞伯拉罕質問上帝的段落。在人類思想史上,道德推理從「對我的部落好」進化到「什麼是真正的好」,這是一次「跳躍到普遍性」(jump to universality)。

西方社會在啟蒙運動後加速了道德進步。過去幾百年間,歐洲國家從彼此開戰到幾乎不再開戰;打小孩從天經地義變成被法律禁止;對女性、外國人、動物的對待方式都發生了根本轉變。多伊奇認為這不是偶然,而是因為西方社會開始把道德理論放在跟科學理論同樣的「糾錯」框架下檢驗。

對齊的正確方式:教育,而非預設價值觀

如果道德知識會成長,而且理性的行為者往往會趨向更好的道德結論,那 AGI 的價值觀問題就不應該用「寫死」的方式來解決。多伊奇的主張很明確:AGI 應該像孩子一樣,在人類文化中被教育,而不是被預先灌輸固定價值觀。

嬰兒出生時幾乎沒有任何既有的道德理論。他們透過與父母、社會、制度的互動,逐漸形成自己的價值觀和世界理解。這個過程中,初始狀態幾乎不重要。只要嬰兒具備人類的創造性思維能力,就算一開始腦袋裡裝的是黑猩猩等級的觀念,也會很快被更好的理論取代。

多伊奇認為 AGI 應該走同樣的路。關鍵不在於它一開始帶著什麼價值觀,而在於它是否具備修正自己信念的能力。如果你把「對齊」的價值觀硬寫進去,你反而剝奪了它糾錯的能力,讓它變得更不道德,而非更道德。這就像一個從小被灌輸了一套信念、永遠不被允許質疑的孩子,他不會變成一個好人,只會變成一個僵化的人。

主持人 Reuben Adams 提出了一個尖銳的反駁:如果 AGI 在「成長」過程中發展出有害的價值觀怎麼辦?多伊奇坦然承認這個風險存在,但他說這和人類面對青少年的問題是同一個問題。每一代人都在抱怨下一代的價值觀「更差了」,但歷史告訴我們,整體而言道德是在進步的。你不能因為青少年可能走偏,就把所有小孩鎖在房間裡預先灌輸「正確」的想法。

我的觀察:他可能低估了過渡期的風險

多伊奇的論證在哲學上是優雅的。如果你接受他的前提(AGI 是人、道德知識會成長、理性行為者會趨向道德進步),那他的結論(不需要硬寫對齊規則,讓 AGI 自然發展)就是邏輯上自然的推演。

但我覺得他的論證有一個明顯的時間尺度問題。人類的道德進步花了幾千年。從柏拉圖問出歐蒂弗羅問題到西方國家之間停止互相開戰,中間經歷了兩千多年和無數次浩劫。多伊奇自己也承認,啟蒙運動只「半成功」了,至今還有大量反理性的力量在運作。

AGI 的速度問題讓這個過渡期變得格外危險。一個 AGI 如果在幾個月內就走完了人類幾千年的道德演化路程,中間經過的那些「錯誤階段」可能造成的傷害遠比人類版本的道德錯誤要大得多。多伊奇的回應是「彗星撞地球的機率比 AGI 毀滅人類高」,但這個比較讓我不太信服。彗星撞地球是純粹的機率問題,AGI 的道德演化則涉及我們尚未理解的動態系統。

不過,多伊奇真正有價值的貢獻,是他迫使我們重新思考「對齊」這個概念本身。主流 AI 安全研究預設了一個框架:AI 是工具,我們是使用者,對齊是確保工具按照使用者意圖運作。但如果 AGI 真的是人,這個框架就完全不適用了。我們不會說要「對齊」一個孩子,我們說的是教育他。這個框架的轉換,或許才是多伊奇最重要的貢獻。在所有人都忙著解答「怎麼對齊 AGI」的時候,他問了一個更根本的問題:我們確定我們在問對的問題嗎?