離開 OpenAI 的人,寫了一部 AI 憲法
Constitutional AI 論文的 51 位作者是 Anthropic 全公司。這不是一篇普通的學術論文,而是一份技術宣言。七位共同創辦人中有 GPT-3 第一作者 Tom Brown、Scaling Laws 發現者 Jared Kaplan、沒有大學學位的可解釋性先驅 Chris Olah,和一位研究無限倫理學的蘇格蘭哲學家 Amanda Askell。他們從 OpenAI 出走,用一部 AI 憲法重新定義了對齊的方向。

本文為「AI 經典文獻回顧」系列第十七篇(下),聚焦 Constitutional AI 論文的人物故事與歷史影響。上篇見〈十六條原則:一篇論文如何用 AI 取代五萬個人類判斷〉。

五十一個人的名字
翻開 Constitutional AI 論文的作者頁,51 個名字。
在學術界,這個數字本身就是一個訊號。一般的機器學習論文有 5 到 10 位作者。大型的系統論文,比如 GPT-3,有 31 位。InstructGPT 有 20 位。但 51 位?這不是一篇論文,這是一整間公司。2022 年底的 Anthropic,員工總數大約就是這個規模。每一個人都掛了名。
這件事值得停下來想一想。一間公司把全部員工列為同一篇論文的作者,意味著什麼?意味著這篇論文不只是某個研究團隊的成果,而是整間公司的技術宣言。它定義了 Anthropic 是什麼、相信什麼、要用什麼方法建造 AI。如果說 InstructGPT 是 OpenAI 對外展示「我們知道怎麼讓 AI 聽話」的技術報告,Constitutional AI 就是 Anthropic 對全世界說「我們有一個更好的方法,而且我們整間公司都押在這上面」的創業宣言。
那麼,這間公司是怎麼來的?答案要從 2020 年底開始說起。
出走:2020 年的冬天
2020 年 12 月到 2021 年 1 月之間,超過十位研究員先後離開了 OpenAI。領頭的是達里奧·阿莫迪(Dario Amodei),OpenAI 的研究副總裁,公司裡最資深的技術領導人之一。
Dario 的背景不是典型的 AI 研究者。他是加州理工和斯坦福的物理學學士,普林斯頓的生物物理學和計算神經科學博士,拿過赫茲獎學金(Hertz Fellowship),在斯坦福醫學院做過博士後。他的學術路徑是從物理到神經科學再到 AI,這條線索解釋了他為什麼對 AI 系統的「行為」而不只是「能力」特別敏感。2014 年他在百度 AI 實驗室短暫工作,然後經過 Google,2016 年加入 OpenAI。
離開的觸發因素是一連串累積的分歧。2019 年,OpenAI 從非營利組織重組為 capped-profit 結構。同年,微軟投資了 10 億美元。在 Dario 和他身邊的一群人看來,商業壓力正在侵蝕安全研究的優先級。Jack Clark,後來成為 Anthropic 共同創辦人之一的前科技記者,把這種擔憂稱為「工業化捕獲」(industrial capture):當一間 AI 公司拿了大公司的錢,它的研究方向就不再完全由研究者決定了。
但 Dario 自己的描述比「安全分歧」更微妙。他後來說:「與其留在 OpenAI 與別人的願景爭論,不如帶一些你信任的人,去實現自己的願景。」他把自己的策略稱為「race to the top」:不是靠批評別人來改變產業,而是以身作則。建造一個同樣強大但更安全的 AI,然後讓市場和同行壓力推動整個產業往安全的方向走。
2021 年 2 月 3 日,Anthropic 在加州正式註冊。七位共同創辦人,全部來自 OpenAI。
七個人帶走了什麼
要理解 Anthropic 為什麼能在成立不到兩年就發表 Constitutional AI 這樣的論文,得看這七位創辦人各自帶走了什麼能力。
達里奧·阿莫迪(Dario Amodei) 帶走的是對規模的信念。他在 OpenAI 負責研究,親眼看到 GPT-2 和 GPT-3 的能力隨著規模增長而飛躍式提升。他屬於那群「非常堅信兩件事」的人:一是擴展模型能提升能力,二是除了擴展,你還需要對齊。這兩個信念的結合,就是 Anthropic 的基因。
丹妮拉·阿莫迪(Daniela Amodei) 帶走的是營運能力。Dario 的妹妹,加州大學聖克魯茲分校英語文學學士。她的職業路徑跟 AI 毫無關係:全球衛生、政治競選、國會議員的通訊主管。2013 年加入 Stripe 當早期員工,這才進入科技業。2018 年加入 OpenAI,管理 GPT-2 開發團隊,後來升任安全和政策副總裁。一個英語文學出身的人管理人類最強大的 AI 系統之一的安全策略,這件事本身就是一個故事。她的丈夫是 Open Philanthropy 聯合 CEO 暨 GiveWell 聯合創辦人霍爾登·卡諾夫斯基(Holden Karnofsky),這層連結讓 Anthropic 從一開始就與有效利他主義(EA)運動有著千絲萬縷的關係。
湯姆·布朗(Tom Brown) 帶走的是建造大模型的實戰經驗。他是 GPT-3 論文的第一作者。2020 年那篇〈Language Models are Few-Shot Learners〉讓全世界第一次見識到大型語言模型的通用能力。一個自學出身的工程師,自稱線性代數只拿了 B-,卻主導了定義時代的 AI 模型開發。然後他離開了,去建一間以安全為優先的公司。2025 年,他在 Y Combinator 演講,主題是「Building Claude Code, Lessons From GPT-3 & LLM System Design」。建造了 GPT-3 的人,現在在教人怎麼建造 Claude。
賈里德·卡普蘭(Jared Kaplan) 帶走的是 Scaling Laws。如同我們在系列第十篇介紹的,他在 2020 年 1 月領導發表了那篇改變產業的論文,發現語言模型的性能隨著模型大小、數據量和計算資源呈精確的冪律關係。他的本職是約翰霍普金斯大學的理論物理學副教授。在 Constitutional AI 論文中,他是核心理念的提出者,與第一作者白雲韜(Yuntao Bai)共同設計了整套方法。2024 年,Anthropic 任命他為 Responsible Scaling Officer,負責監督公司的負責任擴展政策。發現「模型越大越好」的人,現在負責確保「模型越大越安全」。
山姆·麥肯德利什(Sam McCandlish) 帶走的是系統架構能力。斯坦福理論物理學博士,在 OpenAI 擔任研究主管,對 GPT-3 的開發發揮了關鍵作用。在 Anthropic 擔任首席架構師,持續主導 Claude 系列模型的底層設計。
克里斯·奧拉(Chris Olah) 帶走的可能是七個人中最獨特的東西:對 AI 內部運作的理解。他沒有正式的本科學位,完全自學成才。從 Google Brain 到 OpenAI,他開創了神經網路可解釋性的整個研究方向:特徵可視化、啟動圖集、機制可解釋性。他共同創辦了 Distill,一份專注於「讓機器學習研究真正可讀」的期刊。他還共同撰寫了〈Concrete Problems in AI Safety〉,正是我們在系列第五篇介紹的那篇論文。2024 年,TIME 把他列為 AI 百大最具影響力人物。一個沒有大學學位的人,成為了理解 AI「內部想什麼」這個問題最重要的研究者之一。
傑克·克拉克(Jack Clark) 帶走的是政策和公共敘事的能力。東英吉利大學英語文學(創意寫作方向)學士。他的職業生涯從科技記者開始,在 Bloomberg BusinessWeek 和 The Register 寫報導。2016 年加入 OpenAI 擔任策略與政策總監,四年後帶著對 AI 政策的深刻理解加入 Anthropic。他經營的 Import AI 電子報是 AI 業界最受尊重的資訊來源之一。他後來還擔任了斯坦福 AI Index 創始成員和美國國家人工智慧諮詢委員會委員。
七個人,帶走了七種不同的能力:規模信念、營運管理、大模型工程、理論物理與 Scaling Laws、系統架構、可解釋性研究、政策與敘事。組合在一起,就是一間能夠同時做前沿研究和負責任部署的 AI 公司。
論文背後的兩個隱藏角色
在 51 位作者中,有兩個人的故事特別值得講。
第一位是白雲韜(Yuntao Bai),論文的第一作者。普林斯頓大學背景,研究興趣橫跨機器學習和物理學。他設計並執行了 Constitutional AI 論文中的大部分實驗,與 Jared Kaplan 共同撰寫論文。他在 Google Scholar 上的被引用次數超過 14,000 次。
但讓他的故事真正有戲劇性的,是他後來的去向。2026 年的今天,白雲韜已經不在 Anthropic 了。他去了 OpenAI。Constitutional AI 的創造者,加入了 Anthropic 最大的競爭對手。如果說系列第十五篇講的是「開創 RLHF 的人離開了 OpenAI」,白雲韜的故事就是反方向的流動:開創 CAI 的人離開了 Anthropic。在 AI 產業的人才大遷徙中,技術知識不屬於任何一間公司,它屬於帶著它走的那個人。
第二位是阿曼達·阿斯克爾(Amanda Askell)。她在 Constitutional AI 論文的作者列表上排第四,但她的角色遠比排名暗示的重要。
Askell 是一位蘇格蘭哲學家,牛津大學哲學 BPhil,紐約大學哲學博士,博士論文的主題是無限倫理學。2018 年加入 OpenAI 政策團隊,共同撰寫了 GPT-3 論文。2021 年隨團隊加入 Anthropic,擔任人格對齊團隊負責人。
她的工作是什麼?《華爾街日報》的描述最精準:「她的工作是教 Claude 如何做好人。」《紐約客》則說她「監督著 Claude 的靈魂」。
在 Constitutional AI 論文中,她參與了核心概念的討論。但她真正留下最深印記的是後來的工作:2026 年 1 月發布的全新版 Claude 憲法,那份 80 頁、23,000 字的文件,主要由她撰寫。這份文件把 CAI 論文中的 16 條原則擴展為一個完整的道德推理框架,不再只告訴 Claude「不要做什麼」,而是解釋「為什麼不要做」。一位研究「無限倫理學」的哲學家,最終成為了定義 AI 道德指南針的人。
從論文到產品:Claude 的誕生
Constitutional AI 不只是一篇學術論文。它是 Claude 的技術基石。
2022 年夏天,Anthropic 就用 CAI 方法完成了 Claude 第一版的內部訓練。但他們沒有立即發布,而是花了將近八個月做內部安全測試。2023 年 3 月,Claude 1 和 Claude Instant 對外發布,僅限核准用戶。同時公布了第一版 Claude 憲法,一份包含 75 條行為原則的文件。
從時間線看,Constitutional AI 論文(2022 年 12 月)和 Claude 發布(2023 年 3 月)之間只隔了三個月。但論文描述的方法在 Claude 內部訓練中的應用其實更早。換句話說,Anthropic 不是先發表論文再建產品,而是先用這套方法建了產品,然後把方法寫成論文公開。論文是技術說明書,Claude 才是真正的目的。
對比 InstructGPT 和 ChatGPT 的關係,故事驚人地相似。InstructGPT 論文(2022 年 3 月)定義了 RLHF 方法,ChatGPT(2022 年 11 月)是這套方法的產品化。Constitutional AI 論文(2022 年 12 月)定義了 RLAIF 方法,Claude(2023 年 3 月)是這套方法的產品化。兩間公司各自在同一年裡走完了「論文到產品」的路徑,但走的是完全不同的技術路線。一個用人類回饋,一個用 AI 回饋。一個靠 40 位標注員的判斷,一個靠 16 條原則的引導。
2022 年因此成為 AI 對齊領域的分水嶺。如同我們在系列第十五篇的下篇討論過的,這一年同時產出了 Chain-of-Thought Prompting、InstructGPT、Chinchilla、Emergent Abilities、ChatGPT,和 Constitutional AI。六個想法和一個產品,在 12 個月內重新定義了整個產業。而 InstructGPT 和 Constitutional AI 恰好代表了對齊的兩種哲學:人類直接參與,還是原則引導的 AI 自我改進。
2026 年:當理想主義遇上 3,800 億美元
Anthropic 的創業故事是一個關於理想主義的故事。一群人因為對 AI 安全的信念離開了當時最強大的 AI 公司,創辦了一間以安全為核心的新公司。但四年過去了,這個故事正在經歷市場現實的考驗。
數字的增長速度令人暈眩。2022 年 4 月,Anthropic 的融資規模是 5.8 億美元(其中 5 億來自 Sam Bankman-Fried 的 FTX,這筆錢後來因為 FTX 破產而變成了一個尷尬的註腳)。2025 年 3 月,E 輪融資,估值 615 億美元。2025 年 9 月,F 輪 130 億美元,估值 1,830 億美元。2026 年 2 月,G 輪 300 億美元,估值 3,800 億美元。四年之間,估值增長了超過 650 倍。
2026 年 1 月,七位共同創辦人發表聲明,承諾捐出 80% 的個人財富,估計超過 210 億美元,用於對抗 AI 驅動的不平等。Dario 在同期發表的長文〈The Adolescence of Technology〉中描述了他對 AI 未來的願景。2024 年 10 月他的另一篇 14,000 字長文〈Machines of Loving Grace〉更是詳細論述了 AI 在 5 到 10 年內可能改變世界的樂觀圖景。
但在同一個月,Anthropic 在 RSP v3.0 中修改了核心安全承諾。原來的版本承諾「除非能事先保證安全措施足夠,否則不訓練新模型」。新版本的措辭變成了「如果一個開發者暫停而其他人繼續前進,結果可能是一個更不安全的世界」。TIME 雜誌的報導標題直白得不留情面:「Anthropic Drops Flagship Safety Pledge」。這一變化的背景是 Pentagon 要求 Anthropic 放寬安全護欄的壓力,儘管 Anthropic 堅稱政策修改是獨立決策。
這就是「race to the top」策略的根本困境。Dario 2021 年離開 OpenAI 時的邏輯是:我不需要批評別人不安全,我只需要以身作則建造一個更安全的 AI,然後市場壓力會推動整個產業向上。但當你自己變成了估值 3,800 億美元、拿了 Pentagon 合約的巨型企業,「以身作則」的標準就不再只由你自己定義了。
Constitutional AI 論文所代表的理念,用原則引導 AI 行為、讓決策過程可審計、用透明度取代黑盒子,這些在 2022 年是異端,到了 2026 年已經成為行業常識。RLAIF 是標準方法,公開憲法是最佳實踐,原則式對齊的概念已經擴展到了法學領域。但論文沒有回答的問題,也是整個 AI 安全領域至今沒有回答的問題:當制定原則的公司本身面臨利益衝突時,這些原則還可信嗎?
一群人的選擇
也許 Constitutional AI 最持久的遺產,不是 RLAIF 這個技術方法,也不是「憲法」這個概念框架,而是它所代表的一個集體選擇。
2020 年底,一群人站在職業生涯的十字路口。他們可以留在 OpenAI,那裡有微軟的資金、全球最大的用戶群、最強的品牌效應。但他們選擇離開,帶著各自的專長,去建造一個他們認為更正確的東西。建造 GPT-3 的人、發現 Scaling Laws 的人、開創可解釋性研究的人、研究無限倫理學的哲學家、寫科技政策的前記者、管理過 GPT-2 團隊的英語文學畢業生,這些人匯聚在一起,用一部 AI 憲法表達了他們對「AI 應該怎麼對齊」的回答。
四年後的今天,他們的回答被廣泛接受了。但他們自己正在面對一個新的問題:一間以安全為信念的公司,在達到改變世界的規模之後,還能堅持多少當初的信念?
這是 Constitutional AI 留下的最後一個未解問題。不是技術問題,是人的問題。