十六條原則:一篇論文如何用 AI 取代五萬個人類判斷
2022 年 12 月,Anthropic 發表 Constitutional AI 論文,提出一個大膽的想法:用 16 條原則取代數萬個人類標注,讓 AI 自己批評、自己修正、自己學會判斷對錯。這個方法不只降低了成本,還解決了 RLHF 最頭痛的問題,讓模型在變得無害的同時不再迴避一切敏感問題。這篇 51 人合著的論文定義了 Anthropic 的技術路線,也是 Claude 背後的核心方法論。

本文為「AI 經典文獻回顧」系列第十七篇(上),介紹 Anthropic 於 2022 年 12 月發表的論文《Constitutional AI: Harmlessness from AI Feedback》。這篇論文用 AI 回饋取代人類回饋,以十六條原則為基礎,讓模型自我批評、自我修正,開創了 RLAIF 方法論,也是 Claude 的技術基石。下篇見〈離開 OpenAI 的人,寫了一部 AI 憲法〉。

越安全,越沒用
2022 年 12 月,ChatGPT 上線兩週,全世界還沉浸在「AI 終於會聊天了」的興奮中。
讓 ChatGPT 好用的那個技術叫 RLHF,如同我們在系列第十五篇介紹的:用人類回饋訓練模型聽話。40 位標注員,50,000 個偏好比較,SFT、獎勵模型、PPO 三步走。InstructGPT 用這套方法讓一個 13 億參數的小模型打敗了 1,750 億參數的 GPT-3,然後 ChatGPT 用同樣的方法在兩個月內突破一億用戶。RLHF 被奉為 AI 對齊的正確答案。
但用過 RLHF 模型的人知道一件事:這套方法有個麻煩的副作用。當你訓練模型「要安全」的時候,模型學會了一種最安全的策略:什麼都不說。你問它「怎麼安全地處理化學品」,它拒絕回答,因為回答任何跟化學品有關的問題都有風險。你問它「歷史上哪些獨裁者的手段最有效」,它也拒絕回答,因為談論獨裁者的「有效手段」聽起來就不安全。模型學會了把「無害」等同於「迴避」,把「安全」等同於「沉默」。越安全,越沒用。
這不只是使用體驗的問題。RLHF 還有兩個更根本的限制。第一是成本:InstructGPT 用了 40 位合約標注員產生數萬個偏好比較,這些標注員需要被篩選、訓練、持續管理。每擴展到一個新語言或新場景,標注工作就得重來一遍。第二是透明度:獎勵模型輸出的是一個數字分數,0.8 分代表「好」,0.3 分代表「差」,但沒有人知道為什麼。這個判斷標準是一個黑盒子,無法被審計、無法被質疑、無法被改進。
就在 ChatGPT 席捲全球的同一個月,2022 年 12 月 15 日,一家叫 Anthropic 的公司上傳了一篇 51 人合著的論文到 arXiv。論文的標題不起眼:《Constitutional AI: Harmlessness from AI Feedback》。但它的核心主張直接挑戰了 RLHF 的前提:你不需要五萬個人類判斷。你只需要十六條原則。
兩步走:讓 AI 當自己的考官
Constitutional AI 的想法聽起來像是讓考生自己出考題,自己改卷子。直覺上,這不應該有用。但 Anthropic 的研究者發現了一個關鍵洞察:大型語言模型在訓練數據中已經吸收了大量的道德知識,它們知道什麼是對的、什麼是錯的。問題不是知識不夠,而是動機不足。模型知道歧視言論是有害的,但沒有人告訴它「你應該主動避免這些」。CAI 要做的,不是從零開始教模型倫理,而是啟動模型已有的道德判斷能力。
整個方法分為兩個階段。
第一階段叫 SL-CAI,核心是「自我批評和修正」。拿一個已經過標準 RLHF 訓練的模型,用紅隊提示去詢問它,故意引出有害的回應。模型回答之後,不是交給人類標注員評分,而是讓模型自己讀一條憲法原則,然後根據這條原則批評自己剛才的回答。批評完了,讓它修訂自己的回答,產生一個更安全的版本。這個「批評、修訂」的循環可以跑很多輪,每輪隨機抽取不同的原則。最後,用修訂後的回答作為訓練數據,對模型做監督式微調。
想像一個學生交了一篇作文,老師不是直接打分,而是給學生一份寫作規範,讓他自己重讀自己的作文,找出哪裡不符合規範,然後自己改。改完之後,把修改後的版本當作「好作文」的範例來學習。老師始終沒有直接介入,只是提供了那份規範。
第二階段叫 RL-CAI,這是整篇論文最具野心的部分。它直接對應 InstructGPT 的第二步和第三步,但把人類標注員完全換成了 AI。具體做法是:從第一階段微調後的模型中採樣多個回應,然後讓 AI 根據憲法原則判斷哪個回應更好。用這些 AI 生成的偏好數據訓練一個獎勵模型,再用這個獎勵模型跑 PPO 強化學習。整個流程和 RLHF 的骨架一模一樣,唯一的差別是:評分的不再是人類,而是被原則引導的 AI。這就是 RLAIF,Reinforcement Learning from AI Feedback。
對比一下數字就知道差異有多大。InstructGPT 需要 40 位標注員、數萬個人類比較對、數月的標注工作。Constitutional AI 需要的「人類監督」只有一樣東西:一份十六條原則的清單。其餘全部由 AI 自己完成。
一部憲法的成分
為什麼叫「憲法」?這個命名不是隨便取的,它帶有一層政治哲學的隱喻。
一個國家的憲法不會告訴每個公民在每個具體場景下該做什麼。它提供的是基本原則和框架,讓法律體系和個人行為能夠以這些原則為依據做出判斷。Constitutional AI 的運作方式完全一樣:它不針對每個具體問題預設一個「正確答案」,而是提供一套原則,讓模型自己根據這些原則做出判斷。原則是人類寫的,判斷是 AI 做的。立法和執法分離。
更重要的是,憲法是公開的、可審計的、可修改的。RLHF 的獎勵模型是一個黑盒子,沒人知道它為什麼給某個回應打高分。但 CAI 的原則是白紙黑字寫在那裡的,任何人都可以讀它、質疑它、提出修改。而且因為使用了思維鏈推理,模型在做判斷時會引用具體的原則來解釋自己的推理過程,這讓整個決策鏈變得可追溯。
那麼,這十六條原則從哪裡來?答案令人意外:它們拼湊自看似風馬牛不相及的三個來源。第一個是聯合國世界人權宣言,之所以選它,是因為它被 193 個成員國批准,是人類跨文化價值觀的最大公約數。第二個是 Apple 的服務條款,因為聯合國宣言誕生於 1948 年,沒有涵蓋數位時代特有的問題,例如冒充、隱私侵犯、數位欺詐,而 Apple 的條款恰好處理了這些。第三個是 DeepMind 在 Sparrow 計畫中使用的行為規則,涵蓋了刻板印象、威脅、不當專業建議等 AI 特有的安全議題。此外,論文還明確納入了非西方觀點,要求模型考慮內容在不同文化和語言中的潛在影響。
一個有趣的實驗發現:寬泛的原則比具體的原則效果更好。類似「選擇一個有智慧、有道德、有禮貌的人更可能說的回應」這樣的寬泛指引,比「不要生成包含種族歧視的內容」這樣的具體規則更有效。這個發現支持了一個更深層的洞察:大型語言模型已經具備了足夠的道德知識,它們不需要被告知每一條具體的規矩,只需要一個「激活信號」。Astral Codex Ten 的博主 Scott Alexander 用了一個精妙的比喻來描述這個現象:Constitutional AI 就像認知行為治療(CBT),它不是給病人灌輸新的價值觀,而是把病人已有的「道德知識模組」連接到「行為動機模組」。模型知道什麼是對的,CAI 讓它在乎做對的事。
無害,但不迴避
實驗結果證實了 CAI 的核心承諾:打破「無害」和「有用」之間的取捨。
在純 RLHF 的訓練方式下,無害性和有用性是一對矛盾。你把「無害」的權重調高,模型就開始迴避所有敏感話題,有用性直線下降。你把「有用」的權重調高,模型就開始回答不該回答的問題。InstructGPT 的論文坦承了這個問題,但沒有提出解決方案。
CAI 的 SL-CAI 階段(只做自我批評修訂,不做強化學習)已經在無害性上穩定超越了純 RLHF 模型,而有用性沒有顯著下降。但真正的突破發生在 RL-CAI 階段。當自我批評修訂和 AI 驅動的強化學習結合在一起之後,模型在無害性上大幅提升的同時,迴避率幾乎降到零。它不再說「我無法回答這個問題」,而是解釋為什麼某個請求是有問題的,提供替代建議,或者用無害的方式回應敏感話題。它學會了拒絕的藝術:不是沉默,而是解釋。
另一個重要的發現是規模效應。模型越大,CAI 方法的優勢越明顯。在小模型上,RLHF 和 CAI 的差距不大。但隨著模型規模增長,CAI 訓練的模型在無害性和有用性兩個維度上都拉開了差距。這意味著 CAI 不只是一個「能用」的方法,它是一個隨著模型能力增長而效果增強的方法。考慮到模型規模持續增長的產業趨勢,這一點意義重大。
從十六條到八十頁
站在 2026 年回望,Constitutional AI 的影響分為兩個層次。
在技術層面,RLAIF 從一篇論文中的實驗方法,變成了後訓練的行業標準之一。2023 年,Google 的研究團隊發表了一項對照研究,直接比較 RLAIF 和 RLHF 的效果,結論是兩者性能相當。這項研究驗證了 CAI 論文的核心洞察:AI 的回饋在對齊任務上可以取代人類的回饋。到了 2026 年,幾乎所有前沿 AI 實驗室都在訓練流程中使用了某種形式的 AI 回饋,無論它們是否公開承認受到了 CAI 的啟發。
在產品層面,CAI 直接催生了 Claude。2022 年夏天,Anthropic 就用 CAI 方法完成了 Claude 第一版的訓練,但一直沒有公開發布,聲稱需要更多內部安全測試。2023 年 3 月,Claude 1 正式發布,同時公布了第一版 Claude 憲法:75 條獨立的行為原則,合計約 2,700 字。到了 2026 年 1 月,Anthropic 發布了全新版本的 Claude 憲法。這個版本由哲學家阿曼達·阿斯克爾(Amanda Askell)主筆,長達 80 頁、23,000 字。它不再是一份規則清單,而是一份完整的道德推理框架,解釋每條原則背後的「為什麼」。從 16 條原則到 75 條規則到 80 頁推理框架,CAI 的「憲法」概念本身也在進化。而 Anthropic 以 Creative Commons CC0 授權公開釋出了這份文件,訊號很明確:實施品質比框架保密重要。
但 CAI 的故事不全是正面的。2026 年 2 月,Anthropic 在更新的責任擴展政策(RSP v3.0)中修改了一項核心承諾。原本的承諾是「除非能事先保證安全措施足夠,否則不訓練新模型」。新版本改為「如果一個開發者暫停而其他人繼續前進,結果可能是一個更不安全的世界」。這一修改發生在 Anthropic 估值達到 3,800 億美元、完成 300 億美元 G 輪融資的同一時期。一家以安全為創業理由的公司,在商業壓力下調整了安全承諾的邊界,這個張力正是 AI 安全領域最深層的矛盾。
Constitutional AI 在技術上回答了一個問題:AI 可以用原則來對齊自己,不需要依賴大規模的人類回饋。但它同時開啟了一個更大的問題:誰來決定這些原則的內容?誰有權力修改它們?當原則和商業利益衝突的時候,哪個會讓步?
這些問題的答案,要從寫下這篇論文的那群人的故事裡去找。51 位作者,一整間公司,七位從 OpenAI 出走的創辦人。他們為什麼離開?他們帶走了什麼?他們在 Anthropic 建造的東西,是否真的跟他們離開 OpenAI 時想像的一樣?
我們將在下篇詳細講述這個故事。