AI 技術前沿

十六條原則：一篇論文如何用 AI 取代五萬個人類判斷

2022 年 12 月，Anthropic 發表 Constitutional AI 論文，提出一個大膽的想法：用 16 條原則取代數萬個人類標注，讓 AI 自己批評、自己修正、自己學會判斷對錯。這個方法不只降低了成本，還解決了 RLHF 最頭痛的問題，讓模型在變得無害的同時不再迴避一切敏感問題。這篇 51 人合著的論文定義了 Anthropic 的技術路線，也是 Claude 背後的核心方法論。

2022 年 12 月 14 日 · 來源： arXiv

本文為「AI 經典文獻回顧」系列第十七篇（上），介紹 Anthropic 於 2022 年 12 月發表的論文《Constitutional AI: Harmlessness from AI Feedback》。這篇論文用 AI 回饋取代人類回饋，以十六條原則為基礎，讓模型自我批評、自我修正，開創了 RLAIF 方法論，也是 Claude 的技術基石。下篇見〈離開 OpenAI 的人，寫了一部 AI 憲法〉。

封面圖

越安全，越沒用

2022 年 12 月，ChatGPT 上線兩週，全世界還沉浸在「AI 終於會聊天了」的興奮中。

讓 ChatGPT 好用的那個技術叫 RLHF，如同我們在系列第十五篇介紹的：用人類回饋訓練模型聽話。40 位標注員，50,000 個偏好比較，SFT、獎勵模型、PPO 三步走。InstructGPT 用這套方法讓一個 13 億參數的小模型打敗了 1,750 億參數的 GPT-3，然後 ChatGPT 用同樣的方法在兩個月內突破一億用戶。RLHF 被奉為 AI 對齊的正確答案。

但用過 RLHF 模型的人知道一件事：這套方法有個麻煩的副作用。當你訓練模型「要安全」的時候，模型學會了一種最安全的策略：什麼都不說。你問它「怎麼安全地處理化學品」，它拒絕回答，因為回答任何跟化學品有關的問題都有風險。你問它「歷史上哪些獨裁者的手段最有效」，它也拒絕回答，因為談論獨裁者的「有效手段」聽起來就不安全。模型學會了把「無害」等同於「迴避」，把「安全」等同於「沉默」。越安全，越沒用。

這不只是使用體驗的問題。RLHF 還有兩個更根本的限制。第一是成本：InstructGPT 用了 40 位合約標注員產生數萬個偏好比較，這些標注員需要被篩選、訓練、持續管理。每擴展到一個新語言或新場景，標注工作就得重來一遍。第二是透明度：獎勵模型輸出的是一個數字分數，0.8 分代表「好」，0.3 分代表「差」，但沒有人知道為什麼。這個判斷標準是一個黑盒子，無法被審計、無法被質疑、無法被改進。

就在 ChatGPT 席捲全球的同一個月，2022 年 12 月 15 日，一家叫 Anthropic 的公司上傳了一篇 51 人合著的論文到 arXiv。論文的標題不起眼：《Constitutional AI: Harmlessness from AI Feedback》。但它的核心主張直接挑戰了 RLHF 的前提：你不需要五萬個人類判斷。你只需要十六條原則。

兩步走：讓 AI 當自己的考官

Constitutional AI 的想法聽起來像是讓考生自己出考題，自己改卷子。直覺上，這不應該有用。但 Anthropic 的研究者發現了一個關鍵洞察：大型語言模型在訓練數據中已經吸收了大量的道德知識，它們知道什麼是對的、什麼是錯的。問題不是知識不夠，而是動機不足。模型知道歧視言論是有害的，但沒有人告訴它「你應該主動避免這些」。CAI 要做的，不是從零開始教模型倫理，而是啟動模型已有的道德判斷能力。

整個方法分為兩個階段。

第一階段叫 SL-CAI，核心是「自我批評和修正」。拿一個已經過標準 RLHF 訓練的模型，用紅隊提示去詢問它，故意引出有害的回應。模型回答之後，不是交給人類標注員評分，而是讓模型自己讀一條憲法原則，然後根據這條原則批評自己剛才的回答。批評完了，讓它修訂自己的回答，產生一個更安全的版本。這個「批評、修訂」的循環可以跑很多輪，每輪隨機抽取不同的原則。最後，用修訂後的回答作為訓練數據，對模型做監督式微調。

想像一個學生交了一篇作文，老師不是直接打分，而是給學生一份寫作規範，讓他自己重讀自己的作文，找出哪裡不符合規範，然後自己改。改完之後，把修改後的版本當作「好作文」的範例來學習。老師始終沒有直接介入，只是提供了那份規範。

第二階段叫 RL-CAI，這是整篇論文最具野心的部分。它直接對應 InstructGPT 的第二步和第三步，但把人類標注員完全換成了 AI。具體做法是：從第一階段微調後的模型中採樣多個回應，然後讓 AI 根據憲法原則判斷哪個回應更好。用這些 AI 生成的偏好數據訓練一個獎勵模型，再用這個獎勵模型跑 PPO 強化學習。整個流程和 RLHF 的骨架一模一樣，唯一的差別是：評分的不再是人類，而是被原則引導的 AI。這就是 RLAIF，Reinforcement Learning from AI Feedback。

對比一下數字就知道差異有多大。InstructGPT 需要 40 位標注員、數萬個人類比較對、數月的標注工作。Constitutional AI 需要的「人類監督」只有一樣東西：一份十六條原則的清單。其餘全部由 AI 自己完成。

一部憲法的成分

為什麼叫「憲法」？這個命名不是隨便取的，它帶有一層政治哲學的隱喻。

一個國家的憲法不會告訴每個公民在每個具體場景下該做什麼。它提供的是基本原則和框架，讓法律體系和個人行為能夠以這些原則為依據做出判斷。Constitutional AI 的運作方式完全一樣：它不針對每個具體問題預設一個「正確答案」，而是提供一套原則，讓模型自己根據這些原則做出判斷。原則是人類寫的，判斷是 AI 做的。立法和執法分離。

更重要的是，憲法是公開的、可審計的、可修改的。RLHF 的獎勵模型是一個黑盒子，沒人知道它為什麼給某個回應打高分。但 CAI 的原則是白紙黑字寫在那裡的，任何人都可以讀它、質疑它、提出修改。而且因為使用了思維鏈推理，模型在做判斷時會引用具體的原則來解釋自己的推理過程，這讓整個決策鏈變得可追溯。

那麼，這十六條原則從哪裡來？答案令人意外：它們拼湊自看似風馬牛不相及的三個來源。第一個是聯合國世界人權宣言，之所以選它，是因為它被 193 個成員國批准，是人類跨文化價值觀的最大公約數。第二個是 Apple 的服務條款，因為聯合國宣言誕生於 1948 年，沒有涵蓋數位時代特有的問題，例如冒充、隱私侵犯、數位欺詐，而 Apple 的條款恰好處理了這些。第三個是 DeepMind 在 Sparrow 計畫中使用的行為規則，涵蓋了刻板印象、威脅、不當專業建議等 AI 特有的安全議題。此外，論文還明確納入了非西方觀點，要求模型考慮內容在不同文化和語言中的潛在影響。

一個有趣的實驗發現：寬泛的原則比具體的原則效果更好。類似「選擇一個有智慧、有道德、有禮貌的人更可能說的回應」這樣的寬泛指引，比「不要生成包含種族歧視的內容」這樣的具體規則更有效。這個發現支持了一個更深層的洞察：大型語言模型已經具備了足夠的道德知識，它們不需要被告知每一條具體的規矩，只需要一個「激活信號」。Astral Codex Ten 的博主 Scott Alexander 用了一個精妙的比喻來描述這個現象：Constitutional AI 就像認知行為治療（CBT），它不是給病人灌輸新的價值觀，而是把病人已有的「道德知識模組」連接到「行為動機模組」。模型知道什麼是對的，CAI 讓它在乎做對的事。

無害，但不迴避

實驗結果證實了 CAI 的核心承諾：打破「無害」和「有用」之間的取捨。

在純 RLHF 的訓練方式下，無害性和有用性是一對矛盾。你把「無害」的權重調高，模型就開始迴避所有敏感話題，有用性直線下降。你把「有用」的權重調高，模型就開始回答不該回答的問題。InstructGPT 的論文坦承了這個問題，但沒有提出解決方案。

CAI 的 SL-CAI 階段（只做自我批評修訂，不做強化學習）已經在無害性上穩定超越了純 RLHF 模型，而有用性沒有顯著下降。但真正的突破發生在 RL-CAI 階段。當自我批評修訂和 AI 驅動的強化學習結合在一起之後，模型在無害性上大幅提升的同時，迴避率幾乎降到零。它不再說「我無法回答這個問題」，而是解釋為什麼某個請求是有問題的，提供替代建議，或者用無害的方式回應敏感話題。它學會了拒絕的藝術：不是沉默，而是解釋。

另一個重要的發現是規模效應。模型越大，CAI 方法的優勢越明顯。在小模型上，RLHF 和 CAI 的差距不大。但隨著模型規模增長，CAI 訓練的模型在無害性和有用性兩個維度上都拉開了差距。這意味著 CAI 不只是一個「能用」的方法，它是一個隨著模型能力增長而效果增強的方法。考慮到模型規模持續增長的產業趨勢，這一點意義重大。

從十六條到八十頁

站在 2026 年回望，Constitutional AI 的影響分為兩個層次。

在技術層面，RLAIF 從一篇論文中的實驗方法，變成了後訓練的行業標準之一。2023 年，Google 的研究團隊發表了一項對照研究，直接比較 RLAIF 和 RLHF 的效果，結論是兩者性能相當。這項研究驗證了 CAI 論文的核心洞察：AI 的回饋在對齊任務上可以取代人類的回饋。到了 2026 年，幾乎所有前沿 AI 實驗室都在訓練流程中使用了某種形式的 AI 回饋，無論它們是否公開承認受到了 CAI 的啟發。

在產品層面，CAI 直接催生了 Claude。2022 年夏天，Anthropic 就用 CAI 方法完成了 Claude 第一版的訓練，但一直沒有公開發布，聲稱需要更多內部安全測試。2023 年 3 月，Claude 1 正式發布，同時公布了第一版 Claude 憲法：75 條獨立的行為原則，合計約 2,700 字。到了 2026 年 1 月，Anthropic 發布了全新版本的 Claude 憲法。這個版本由哲學家阿曼達·阿斯克爾（Amanda Askell）主筆，長達 80 頁、23,000 字。它不再是一份規則清單，而是一份完整的道德推理框架，解釋每條原則背後的「為什麼」。從 16 條原則到 75 條規則到 80 頁推理框架，CAI 的「憲法」概念本身也在進化。而 Anthropic 以 Creative Commons CC0 授權公開釋出了這份文件，訊號很明確：實施品質比框架保密重要。

但 CAI 的故事不全是正面的。2026 年 2 月，Anthropic 在更新的責任擴展政策（RSP v3.0）中修改了一項核心承諾。原本的承諾是「除非能事先保證安全措施足夠，否則不訓練新模型」。新版本改為「如果一個開發者暫停而其他人繼續前進，結果可能是一個更不安全的世界」。這一修改發生在 Anthropic 估值達到 3,800 億美元、完成 300 億美元 G 輪融資的同一時期。一家以安全為創業理由的公司，在商業壓力下調整了安全承諾的邊界，這個張力正是 AI 安全領域最深層的矛盾。

Constitutional AI 在技術上回答了一個問題：AI 可以用原則來對齊自己，不需要依賴大規模的人類回饋。但它同時開啟了一個更大的問題：誰來決定這些原則的內容？誰有權力修改它們？當原則和商業利益衝突的時候，哪個會讓步？

這些問題的答案，要從寫下這篇論文的那群人的故事裡去找。51 位作者，一整間公司，七位從 OpenAI 出走的創辦人。他們為什麼離開？他們帶走了什麼？他們在 Anthropic 建造的東西，是否真的跟他們離開 OpenAI 時想像的一樣？

我們將在下篇詳細講述這個故事。