AI 技術前沿

離開 OpenAI 的人，寫了一部 AI 憲法

Constitutional AI 論文的 51 位作者是 Anthropic 全公司。這不是一篇普通的學術論文，而是一份技術宣言。七位共同創辦人中有 GPT-3 第一作者 Tom Brown、Scaling Laws 發現者 Jared Kaplan、沒有大學學位的可解釋性先驅 Chris Olah，和一位研究無限倫理學的蘇格蘭哲學家 Amanda Askell。他們從 OpenAI 出走，用一部 AI 憲法重新定義了對齊的方向。

2022 年 12 月 14 日 · 來源： arXiv

本文為「AI 經典文獻回顧」系列第十七篇（下），聚焦 Constitutional AI 論文的人物故事與歷史影響。上篇見〈十六條原則：一篇論文如何用 AI 取代五萬個人類判斷〉。

封面圖

五十一個人的名字

翻開 Constitutional AI 論文的作者頁，51 個名字。

在學術界，這個數字本身就是一個訊號。一般的機器學習論文有 5 到 10 位作者。大型的系統論文，比如 GPT-3，有 31 位。InstructGPT 有 20 位。但 51 位？這不是一篇論文，這是一整間公司。2022 年底的 Anthropic，員工總數大約就是這個規模。每一個人都掛了名。

這件事值得停下來想一想。一間公司把全部員工列為同一篇論文的作者，意味著什麼？意味著這篇論文不只是某個研究團隊的成果，而是整間公司的技術宣言。它定義了 Anthropic 是什麼、相信什麼、要用什麼方法建造 AI。如果說 InstructGPT 是 OpenAI 對外展示「我們知道怎麼讓 AI 聽話」的技術報告，Constitutional AI 就是 Anthropic 對全世界說「我們有一個更好的方法，而且我們整間公司都押在這上面」的創業宣言。

那麼，這間公司是怎麼來的？答案要從 2020 年底開始說起。

出走：2020 年的冬天

2020 年 12 月到 2021 年 1 月之間，超過十位研究員先後離開了 OpenAI。領頭的是達里奧·阿莫迪（Dario Amodei），OpenAI 的研究副總裁，公司裡最資深的技術領導人之一。

Dario 的背景不是典型的 AI 研究者。他是加州理工和斯坦福的物理學學士，普林斯頓的生物物理學和計算神經科學博士，拿過赫茲獎學金（Hertz Fellowship），在斯坦福醫學院做過博士後。他的學術路徑是從物理到神經科學再到 AI，這條線索解釋了他為什麼對 AI 系統的「行為」而不只是「能力」特別敏感。2014 年他在百度 AI 實驗室短暫工作，然後經過 Google，2016 年加入 OpenAI。

離開的觸發因素是一連串累積的分歧。2019 年，OpenAI 從非營利組織重組為 capped-profit 結構。同年，微軟投資了 10 億美元。在 Dario 和他身邊的一群人看來，商業壓力正在侵蝕安全研究的優先級。Jack Clark，後來成為 Anthropic 共同創辦人之一的前科技記者，把這種擔憂稱為「工業化捕獲」（industrial capture）：當一間 AI 公司拿了大公司的錢，它的研究方向就不再完全由研究者決定了。

但 Dario 自己的描述比「安全分歧」更微妙。他後來說：「與其留在 OpenAI 與別人的願景爭論，不如帶一些你信任的人，去實現自己的願景。」他把自己的策略稱為「race to the top」：不是靠批評別人來改變產業，而是以身作則。建造一個同樣強大但更安全的 AI，然後讓市場和同行壓力推動整個產業往安全的方向走。

2021 年 2 月 3 日，Anthropic 在加州正式註冊。七位共同創辦人，全部來自 OpenAI。

七個人帶走了什麼

要理解 Anthropic 為什麼能在成立不到兩年就發表 Constitutional AI 這樣的論文，得看這七位創辦人各自帶走了什麼能力。

達里奧·阿莫迪（Dario Amodei） 帶走的是對規模的信念。他在 OpenAI 負責研究，親眼看到 GPT-2 和 GPT-3 的能力隨著規模增長而飛躍式提升。他屬於那群「非常堅信兩件事」的人：一是擴展模型能提升能力，二是除了擴展，你還需要對齊。這兩個信念的結合，就是 Anthropic 的基因。

丹妮拉·阿莫迪（Daniela Amodei） 帶走的是營運能力。Dario 的妹妹，加州大學聖克魯茲分校英語文學學士。她的職業路徑跟 AI 毫無關係：全球衛生、政治競選、國會議員的通訊主管。2013 年加入 Stripe 當早期員工，這才進入科技業。2018 年加入 OpenAI，管理 GPT-2 開發團隊，後來升任安全和政策副總裁。一個英語文學出身的人管理人類最強大的 AI 系統之一的安全策略，這件事本身就是一個故事。她的丈夫是 Open Philanthropy 聯合 CEO 暨 GiveWell 聯合創辦人霍爾登·卡諾夫斯基（Holden Karnofsky），這層連結讓 Anthropic 從一開始就與有效利他主義（EA）運動有著千絲萬縷的關係。

湯姆·布朗（Tom Brown） 帶走的是建造大模型的實戰經驗。他是 GPT-3 論文的第一作者。2020 年那篇〈Language Models are Few-Shot Learners〉讓全世界第一次見識到大型語言模型的通用能力。一個自學出身的工程師，自稱線性代數只拿了 B-，卻主導了定義時代的 AI 模型開發。然後他離開了，去建一間以安全為優先的公司。2025 年，他在 Y Combinator 演講，主題是「Building Claude Code, Lessons From GPT-3 & LLM System Design」。建造了 GPT-3 的人，現在在教人怎麼建造 Claude。

賈里德·卡普蘭（Jared Kaplan） 帶走的是 Scaling Laws。如同我們在系列第十篇介紹的，他在 2020 年 1 月領導發表了那篇改變產業的論文，發現語言模型的性能隨著模型大小、數據量和計算資源呈精確的冪律關係。他的本職是約翰霍普金斯大學的理論物理學副教授。在 Constitutional AI 論文中，他是核心理念的提出者，與第一作者白雲韜（Yuntao Bai）共同設計了整套方法。2024 年，Anthropic 任命他為 Responsible Scaling Officer，負責監督公司的負責任擴展政策。發現「模型越大越好」的人，現在負責確保「模型越大越安全」。

山姆·麥肯德利什（Sam McCandlish） 帶走的是系統架構能力。斯坦福理論物理學博士，在 OpenAI 擔任研究主管，對 GPT-3 的開發發揮了關鍵作用。在 Anthropic 擔任首席架構師，持續主導 Claude 系列模型的底層設計。

克里斯·奧拉（Chris Olah） 帶走的可能是七個人中最獨特的東西：對 AI 內部運作的理解。他沒有正式的本科學位，完全自學成才。從 Google Brain 到 OpenAI，他開創了神經網路可解釋性的整個研究方向：特徵可視化、啟動圖集、機制可解釋性。他共同創辦了 Distill，一份專注於「讓機器學習研究真正可讀」的期刊。他還共同撰寫了〈Concrete Problems in AI Safety〉，正是我們在系列第五篇介紹的那篇論文。2024 年，TIME 把他列為 AI 百大最具影響力人物。一個沒有大學學位的人，成為了理解 AI「內部想什麼」這個問題最重要的研究者之一。

傑克·克拉克（Jack Clark） 帶走的是政策和公共敘事的能力。東英吉利大學英語文學（創意寫作方向）學士。他的職業生涯從科技記者開始，在 Bloomberg BusinessWeek 和 The Register 寫報導。2016 年加入 OpenAI 擔任策略與政策總監，四年後帶著對 AI 政策的深刻理解加入 Anthropic。他經營的 Import AI 電子報是 AI 業界最受尊重的資訊來源之一。他後來還擔任了斯坦福 AI Index 創始成員和美國國家人工智慧諮詢委員會委員。

七個人，帶走了七種不同的能力：規模信念、營運管理、大模型工程、理論物理與 Scaling Laws、系統架構、可解釋性研究、政策與敘事。組合在一起，就是一間能夠同時做前沿研究和負責任部署的 AI 公司。

論文背後的兩個隱藏角色

在 51 位作者中，有兩個人的故事特別值得講。

第一位是白雲韜（Yuntao Bai），論文的第一作者。普林斯頓大學背景，研究興趣橫跨機器學習和物理學。他設計並執行了 Constitutional AI 論文中的大部分實驗，與 Jared Kaplan 共同撰寫論文。他在 Google Scholar 上的被引用次數超過 14,000 次。

但讓他的故事真正有戲劇性的，是他後來的去向。2026 年的今天，白雲韜已經不在 Anthropic 了。他去了 OpenAI。Constitutional AI 的創造者，加入了 Anthropic 最大的競爭對手。如果說系列第十五篇講的是「開創 RLHF 的人離開了 OpenAI」，白雲韜的故事就是反方向的流動：開創 CAI 的人離開了 Anthropic。在 AI 產業的人才大遷徙中，技術知識不屬於任何一間公司，它屬於帶著它走的那個人。

第二位是阿曼達·阿斯克爾（Amanda Askell）。她在 Constitutional AI 論文的作者列表上排第四，但她的角色遠比排名暗示的重要。

Askell 是一位蘇格蘭哲學家，牛津大學哲學 BPhil，紐約大學哲學博士，博士論文的主題是無限倫理學。2018 年加入 OpenAI 政策團隊，共同撰寫了 GPT-3 論文。2021 年隨團隊加入 Anthropic，擔任人格對齊團隊負責人。

她的工作是什麼？《華爾街日報》的描述最精準：「她的工作是教 Claude 如何做好人。」《紐約客》則說她「監督著 Claude 的靈魂」。

在 Constitutional AI 論文中，她參與了核心概念的討論。但她真正留下最深印記的是後來的工作：2026 年 1 月發布的全新版 Claude 憲法，那份 80 頁、23,000 字的文件，主要由她撰寫。這份文件把 CAI 論文中的 16 條原則擴展為一個完整的道德推理框架，不再只告訴 Claude「不要做什麼」，而是解釋「為什麼不要做」。一位研究「無限倫理學」的哲學家，最終成為了定義 AI 道德指南針的人。

從論文到產品：Claude 的誕生

Constitutional AI 不只是一篇學術論文。它是 Claude 的技術基石。

2022 年夏天，Anthropic 就用 CAI 方法完成了 Claude 第一版的內部訓練。但他們沒有立即發布，而是花了將近八個月做內部安全測試。2023 年 3 月，Claude 1 和 Claude Instant 對外發布，僅限核准用戶。同時公布了第一版 Claude 憲法，一份包含 75 條行為原則的文件。

從時間線看，Constitutional AI 論文（2022 年 12 月）和 Claude 發布（2023 年 3 月）之間只隔了三個月。但論文描述的方法在 Claude 內部訓練中的應用其實更早。換句話說，Anthropic 不是先發表論文再建產品，而是先用這套方法建了產品，然後把方法寫成論文公開。論文是技術說明書，Claude 才是真正的目的。

對比 InstructGPT 和 ChatGPT 的關係，故事驚人地相似。InstructGPT 論文（2022 年 3 月）定義了 RLHF 方法，ChatGPT（2022 年 11 月）是這套方法的產品化。Constitutional AI 論文（2022 年 12 月）定義了 RLAIF 方法，Claude（2023 年 3 月）是這套方法的產品化。兩間公司各自在同一年裡走完了「論文到產品」的路徑，但走的是完全不同的技術路線。一個用人類回饋，一個用 AI 回饋。一個靠 40 位標注員的判斷，一個靠 16 條原則的引導。

2022 年因此成為 AI 對齊領域的分水嶺。如同我們在系列第十五篇的下篇討論過的，這一年同時產出了 Chain-of-Thought Prompting、InstructGPT、Chinchilla、Emergent Abilities、ChatGPT，和 Constitutional AI。六個想法和一個產品，在 12 個月內重新定義了整個產業。而 InstructGPT 和 Constitutional AI 恰好代表了對齊的兩種哲學：人類直接參與，還是原則引導的 AI 自我改進。

2026 年：當理想主義遇上 3,800 億美元

Anthropic 的創業故事是一個關於理想主義的故事。一群人因為對 AI 安全的信念離開了當時最強大的 AI 公司，創辦了一間以安全為核心的新公司。但四年過去了，這個故事正在經歷市場現實的考驗。

數字的增長速度令人暈眩。2022 年 4 月，Anthropic 的融資規模是 5.8 億美元（其中 5 億來自 Sam Bankman-Fried 的 FTX，這筆錢後來因為 FTX 破產而變成了一個尷尬的註腳）。2025 年 3 月，E 輪融資，估值 615 億美元。2025 年 9 月，F 輪 130 億美元，估值 1,830 億美元。2026 年 2 月，G 輪 300 億美元，估值 3,800 億美元。四年之間，估值增長了超過 650 倍。

2026 年 1 月，七位共同創辦人發表聲明，承諾捐出 80% 的個人財富，估計超過 210 億美元，用於對抗 AI 驅動的不平等。Dario 在同期發表的長文〈The Adolescence of Technology〉中描述了他對 AI 未來的願景。2024 年 10 月他的另一篇 14,000 字長文〈Machines of Loving Grace〉更是詳細論述了 AI 在 5 到 10 年內可能改變世界的樂觀圖景。

但在同一個月，Anthropic 在 RSP v3.0 中修改了核心安全承諾。原來的版本承諾「除非能事先保證安全措施足夠，否則不訓練新模型」。新版本的措辭變成了「如果一個開發者暫停而其他人繼續前進，結果可能是一個更不安全的世界」。TIME 雜誌的報導標題直白得不留情面：「Anthropic Drops Flagship Safety Pledge」。這一變化的背景是 Pentagon 要求 Anthropic 放寬安全護欄的壓力，儘管 Anthropic 堅稱政策修改是獨立決策。

這就是「race to the top」策略的根本困境。Dario 2021 年離開 OpenAI 時的邏輯是：我不需要批評別人不安全，我只需要以身作則建造一個更安全的 AI，然後市場壓力會推動整個產業向上。但當你自己變成了估值 3,800 億美元、拿了 Pentagon 合約的巨型企業，「以身作則」的標準就不再只由你自己定義了。

Constitutional AI 論文所代表的理念，用原則引導 AI 行為、讓決策過程可審計、用透明度取代黑盒子，這些在 2022 年是異端，到了 2026 年已經成為行業常識。RLAIF 是標準方法，公開憲法是最佳實踐，原則式對齊的概念已經擴展到了法學領域。但論文沒有回答的問題，也是整個 AI 安全領域至今沒有回答的問題：當制定原則的公司本身面臨利益衝突時，這些原則還可信嗎？

一群人的選擇

也許 Constitutional AI 最持久的遺產，不是 RLAIF 這個技術方法，也不是「憲法」這個概念框架，而是它所代表的一個集體選擇。

2020 年底，一群人站在職業生涯的十字路口。他們可以留在 OpenAI，那裡有微軟的資金、全球最大的用戶群、最強的品牌效應。但他們選擇離開，帶著各自的專長，去建造一個他們認為更正確的東西。建造 GPT-3 的人、發現 Scaling Laws 的人、開創可解釋性研究的人、研究無限倫理學的哲學家、寫科技政策的前記者、管理過 GPT-2 團隊的英語文學畢業生，這些人匯聚在一起，用一部 AI 憲法表達了他們對「AI 應該怎麼對齊」的回答。

四年後的今天，他們的回答被廣泛接受了。但他們自己正在面對一個新的問題：一間以安全為信念的公司，在達到改變世界的規模之後，還能堅持多少當初的信念？

這是 Constitutional AI 留下的最後一個未解問題。不是技術問題，是人的問題。