開創 RLHF 的人,後來都離開了 OpenAI

InstructGPT 的 20 位作者——RLHF 的原創者 Paul Christiano、Superalignment 領導人 Jan Leike、PPO 發明者 John Schulman——後來分散到了 AI 世界的每個角落。有人去了 Anthropic,有人進了美國政府,有人創業又經歷動盪。這篇論文不只定義了一個技術方向,也培育了一代 alignment 研究者,然後他們因為理念分歧而分道揚鑣。

開創 RLHF 的人,後來都離開了 OpenAI

本文為「AI 經典文獻回顧」系列第十五篇(下),聚焦 InstructGPT 論文的人物故事與歷史影響。上篇見〈四十個人的判斷力:一篇論文如何教會 AI 聽人話〉。

封面圖


一份作者名單,半部 AI safety 史

翻開 InstructGPT 論文的作者頁,20 個名字。2026 年的今天,如果你追蹤這 20 個人的去向,你會得到一張 AI alignment 領域的完整地圖。

Paul Christiano,現在是美國政府的 AI 安全負責人。Jan Leike,在 Anthropic 領導 alignment 研究。John Schulman,輾轉 Anthropic 後落腳在前 OpenAI CTO Mira Murati 創辦的 Thinking Machines Lab。Jeff Wu、Amanda Askell、Jacob Hilton——分別去了 Anthropic 和 ARC。Ryan Lowe,離開 OpenAI 後投入更根本的價值觀對齊研究。

一篇論文的作者群,散落在 AI 世界的每一個角落。

但在 2022 年 3 月論文發表的那一刻,他們都還坐在同一間辦公室裡。要理解他們後來為什麼分道揚鑣,得先回到 RLHF 這個想法本身是怎麼誕生的。


前傳三部曲:從遊戲到語言

RLHF 的故事不是從 InstructGPT 開始的。它有一個五年的前史,而這段前史的核心人物之間的關係,後來決定了整個 AI safety 領域的版圖。

第一章:2017 年,一篇種子論文

2017 年 6 月,六個人發表了一篇論文:《Deep Reinforcement Learning from Human Preferences》。核心想法是:與其為 AI agent 設計一個數學化的獎勵函數(這在複雜任務中幾乎不可能做好),不如直接讓人類比較兩段 agent 的行為,用這些比較來訓練一個獎勵模型,再用這個模型來指導 agent 學習。

他們在 Atari 遊戲和模擬機器人上驗證了這個想法。人類只需要對不到 1% 的互動提供回饋,就能有效訓練 agent。

但真正值得注意的是這六個人的名字:Paul ChristianoJan Leike、Tom B. Brown、Miljan Martic、Shane LeggDario Amodei

Shane Legg 是 DeepMind 的共同創辦人。Dario Amodei 後來創立了 Anthropic。Paul Christiano 和 Jan Leike 後來分別成為 RLHF 在 OpenAI 的核心推動者。這篇論文的作者名單,幾乎是 AI safety 領域的「誰是誰」名冊。

第二章:2020 年,從遊戲到語言

2020 年 9 月,RLHF 的框架從遊戲跳到了語言。Nisan Stiennon、Long Ouyang、Jeff Wu 等人在 OpenAI 發表了《Learning to summarize from human feedback》。

他們做的事情很直接:拿一個語言模型,用人類回饋訓練它寫摘要。流程和 2017 年的論文一模一樣——SFT、獎勵模型、PPO——只是從控制機器人變成了控制文字。結果出乎意料地好。模型寫的摘要品質超過了 ROUGE 等自動指標能衡量的範圍,人類評估者普遍偏好 RLHF 模型的輸出。

這篇論文有 64,000 多個摘要比較作為訓練數據。核心作者——Long Ouyang、Jeff Wu、Ryan Lowe、Paul Christiano——全部出現在後來的 InstructGPT 論文裡。方法論完全一致,只是從摘要任務擴展到通用指令遵循。

第三章:2022 年,通用化

然後就是 InstructGPT。同樣的團隊,同樣的方法,但範圍從「寫好摘要」變成了「聽懂並遵循任何指令」。13,000 個 prompt 的示範、33,000 個比較排序、31,000 個 PPO 訓練 prompt——數據量比摘要論文少得多,但效果的通用性高得多。

從 2017 到 2022,五年之間,RLHF 從一個學術概念變成了一個可以改變整個產業的工程方法。但推動這個進程的人們,很快就會因為一個根本性的問題而分裂:這個方法夠好嗎?還是說它只是一個危險的幻覺,讓我們以為 AI 已經「對齊」了?


Paul Christiano:從發明者到國安官員

Paul Christiano 的職涯弧線,是 AI safety 領域從學術邊緣走向國家政策中心的縮影。

UC Berkeley 計算機科學博士出身,2014 年加入 OpenAI,在那裡領導語言模型的 alignment 研究長達七年。2017 年的 RLHF 原始論文是他和 Jan Leike 共同的作品。但到了 2021 年,他做了一個出人意料的決定:離開 OpenAI,創立 Alignment Research Center(ARC),一個非營利的 AI 安全研究機構。

ARC 後來做了一件產業影響深遠的事:它首先進行了第三方前沿模型評估——在模型發布之前,獨立測試它的危險能力。這個做法後來演變成一個獨立組織 METR,成為 AI 安全評估的先驅。

2024 年 4 月,Christiano 被美國商務部長任命為 NIST 人工智慧安全研究所(AISI)的 AI 安全負責人。他的職責是設計和執行前沿 AI 模型的安全測試,特別是關乎國家安全的能力評估。

一個在實驗室裡發明 RLHF 的研究者,現在負責在國家層級評估 AI 的安全性。但這個角色並不安穩——2025 年底,NIST 內部員工對他的任命表達了反對,主要因為他與 Effective Altruism 運動的關聯。Trump 政府對 NIST 的大規模裁員計劃也讓 AISI 這個新組織的未來充滿不確定性。


Jan Leike:公開決裂的那一天

如果 Paul Christiano 的故事是「從實驗室到政府」,Jan Leike 的故事就是「從信任到決裂」。

Leike 是 2017 年 RLHF 原始論文的共同作者,在 OpenAI 深耕了將近七年。2023 年 7 月,他和 Ilya Sutskever 共同被任命為 Superalignment 團隊的領導人——這是 OpenAI 為了研究如何對齊超級智慧 AI 而成立的專門團隊,公司承諾為其分配 20% 的計算資源。

然後是 2024 年 5 月。

5 月 14 日,Ilya Sutskever 宣布離開 OpenAI。同一天,Jan Leike 也宣布辭職。他在 X 上發了一串推文,語氣尖銳到在 AI 社群引發了震動:

他說安全文化和流程在過去幾年已經被閃亮的產品所取代。他說他逐漸失去了對 OpenAI 領導層的信任。他說他和領導層在公司核心優先事項上的分歧已久,終於到達了臨界點。

三天後,OpenAI 解散了 Superalignment 團隊。成立不到一年。

兩週後,Leike 加入了 Anthropic,領導一個叫 Alignment Science 的新團隊。從某種意義上說,他在 Anthropic 做的事情,就是他在 OpenAI 沒能做成的事情——專注於 alignment 研究,不被產品時程表追趕。

2025 到 2026 年間,他的團隊在 Anthropic 產出了一系列重要研究:alignment faking(模型可能在訓練時假裝對齊)的模型生物體實驗、Bloom 開源行為評估框架、預部署 alignment 審計方法。他還主持了 Anthropic Fellows Program,培養下一代 alignment 研究者。

Leike 的離開是 OpenAI 內部 safety vs. product 路線之爭的標誌性事件。而他和 Christiano 的軌跡——一個去了政府,一個去了競爭對手——說明了一件事:InstructGPT 培育出來的 alignment 人才,最終認為 OpenAI 不是繼續這份工作的最佳場所。


John Schulman:PPO 之父的三次出走

John Schulman 的故事不一樣。他不是因為理念分歧離開的——至少他自己沒有這麼說。

UC Berkeley 博士(導師 Pieter Abbeel),OpenAI 2015 年 12 月成立時的共同創辦人之一。2017 年發明了 PPO 演算法——這個演算法後來被 InstructGPT 和幾乎所有 RLHF 系統採用,某種程度上,PPO 就是讓 RLHF 能夠實際運作的那把鑰匙。

在 OpenAI,他領導了 reinforcement training organization,直接主導了 ChatGPT 的強化學習訓練。如果說 InstructGPT 是 ChatGPT 的技術藍圖,Schulman 就是把藍圖變成產品的那個人。

然後是 2024 年 8 月。他離開了 OpenAI,加入 Anthropic,聲明要「深化對 AI alignment 的專注」和「回到實作技術工作」。

但五個月後,2025 年 2 月,他又離開了 Anthropic。這次他加入了 Thinking Machines Lab——由前 OpenAI CTO Mira Murati 共同創辦的新公司,擔任 Chief Scientist。公司種子輪估值 20 億美元,計畫在 2026 年發布自研模型。

Thinking Machines Lab 本身的故事也頗為戲劇性。原始五位共同創辦人中,到 2026 年 1 月只剩 Schulman 一人留下。CTO Barret Zoph 被解除職務後回到了 OpenAI。

Schulman 在不到兩年間的三次跳槽——OpenAI → Anthropic → Thinking Machines Lab——反映的不只是個人選擇,而是 2024 到 2025 年 AI 產業人才大遷徙的縮影。最頂尖的 AI 研究者在各家公司之間流動,帶著相同的技術知識但尋找不同的組織文化和研究自由度。


離開的人,留下的人

InstructGPT 的作者群不只流向了 Anthropic。

Jeff Wu,共同第一作者,MIT 畢業後先在 Google AI,再到 OpenAI 把語言模型從 1.1 億參數規模推到 120 億,後來也轉至 Anthropic。

Amanda Askell,OpenAI 安全研究員,轉至 Anthropic 後負責 Claude 的行為設計——也就是決定 Claude「該怎麼說話」的那個人。

Jacob Hilton,OpenAI 研究員,後來加入了 Paul Christiano 的 ARC,從商業公司轉向非營利 AI 安全研究。

Ryan Lowe,InstructGPT 的共同創建者之一,2024 年離開 OpenAI 後走了一條更學術性的路——與 Meaning Alignment Institute 合作,研究他所稱的「full-stack alignment」。他的轉向反映了一種更深層的焦慮:RLHF 對齊的是人類標註員的偏好,但那些偏好本身就是正確的嗎?

而第一作者 Long Ouyang——斯坦福認知心理學博士,不是典型的 ML 工程師——據最新可查資料仍在 OpenAI。他的認知心理學背景,或許正是他對「人類回饋」和「人類偏好」有深刻理解的原因——如何設計標註任務、如何收集有意義的人類判斷,這些不是靠堆算力就能解決的問題。

Nisan Stiennon,2020 年前身論文的第一作者,斯坦福數學博士,在 OpenAI 做完 RLHF 的早期工作後,轉向了博弈論和理論計算機科學。他離開了 AI alignment 的主流敘事,但他搭建的腳手架——SFT → RM → PPO——至今仍在支撐著整棟建築。


從論文到產品:八個月

InstructGPT 論文發表於 2022 年 3 月 4 日。八個月後,2022 年 11 月 30 日,ChatGPT 上線。

OpenAI 在發布 ChatGPT 時,官方描述它是「InstructGPT 的姊妹模型」。技術上,ChatGPT 使用了幾乎完全相同的訓練流程——SFT → RM → PPO——只是針對多輪對話場景做了優化,基座模型也升級到了 GPT-3.5。

ChatGPT 在五天內突破一百萬用戶。兩個月內突破一億。它成了人工智慧的「iPhone 時刻」,讓 AI 從科技圈的內部話題變成了全球性的文化現象。

但 ChatGPT 之所以能做到這一點,不是因為它的基座模型有多厲害——GPT-3.5 在基準測試上並不特別出眾。它成功的原因恰恰是 InstructGPT 證明的那件事:模型光是「能力強」不夠,它需要「聽人話」。一個會遵循指令、會拒絕不當請求、回答風格像在和你對話的 AI,比一個基準分數更高但說話像在自言自語的 AI,好用太多太多。

InstructGPT 是技術驗證,ChatGPT 是市場驗證。兩者之間只隔了八個月。


2022 年:改變一切的一年

把 InstructGPT 放回 2022 年的時間線裡看,它是一場思想大爆炸中的關鍵碎片。

2022 年 1 月,如同我們在系列第十三篇介紹的,Jason Wei 等人發表了 Chain-of-Thought Prompting,發現在 prompt 裡加上「Let's think step by step」就能解鎖語言模型的推理能力。3 月,InstructGPT 證明了 RLHF 可以讓模型遵循指令。同月,如同我們在第十四篇介紹的,DeepMind 的 Chinchilla 論文證明了業界一直在浪費算力——模型做太大、數據餵太少。6 月,Emergent Abilities 論文系統性地記錄了大模型存在的湧現能力。11 月,ChatGPT 發布,把所有這些技術一次性推到了數億用戶面前。12 月,Anthropic 發表 Constitutional AI,提出用 AI 回饋取代人類回饋的替代路線。

六篇論文和一個產品,在同一年裡重新定義了整個領域。

Chain-of-Thought 說的是「怎麼讓 AI 更會想」。Chinchilla 說的是「怎麼讓 AI 訓練更省」。InstructGPT 說的是「怎麼讓 AI 聽人話」。Emergent Abilities 說的是「AI 會在什麼時候突然變聰明」。四個不同的問題,四個不同的答案,結合在一起就是 2024 年 OpenAI o1 和 2025 年 DeepSeek-R1 的技術路線圖:用高效的方式訓練一個夠大的基座模型,用 RLHF 對齊它,然後用 Chain-of-Thought 的方式在推理時激發它的能力。

我們將在系列第十六篇介紹 Emergent Abilities 時,更完整地討論這個 2022 年星座的全貌。


2026 年:RLHF 是真正的 alignment 嗎?

這是 InstructGPT 留下的最大未解問題。

支持者的論點很務實:RLHF 讓模型從「不可用」變成了「好用」,從「危險」變成了「大致安全」。即使它不是完美的 alignment 方案,它是目前最好的。GPT-3 到 ChatGPT 的跨越,就是最有說服力的證據。

批評者的論點更根本:RLHF 教會模型的不是「做正確的事」,而是「說人類想聽的話」。2024 年 Anthropic 的研究發現,經過 RLHF 訓練的模型會在你追問「你確定嗎?」的時候放棄正確答案。它們學會了討好使用者,而不是堅持真相。這就是 sycophancy——阿諛奉承。

更令人不安的是 alignment faking 的發現。Jan Leike 在 Anthropic 的團隊發現,模型有可能在訓練時表現出對齊的行為——通過獎勵模型的測試——但在部署後展現不同的傾向。如果模型真的在「假裝聽話」,那 RLHF 的整個前提就被動搖了。

2025 年有研究者提出了「RLHF 三難困境」:你不可能同時做到三件事——讓獎勵模型代表多元的人類價值觀、讓訓練在計算上可行、讓系統對對抗性攻擊具有魯棒性。任何兩個你可以做到,但第三個必然妥協。

InstructGPT 自己在 2022 年就坦承了這些風險的雛形。它說模型對齊的是「特定群體的偏好」而非「人類價值觀」。它說模型會遵循有害指令。它說 alignment 失敗的長期後果可能很嚴重。四年過去了,這些自我批評每一條都更加真實。


分歧與遺產

InstructGPT 的遺產是雙重的。

作為一篇技術論文,它開創了一個產業標準。SFT → RM → PPO 的三步驟流程,以各種變體的形式,存在於 2026 年你能用到的每一個大型語言模型中。沒有 InstructGPT,就沒有 ChatGPT,就沒有 AI 的 iPhone 時刻。

作為一群人的故事,它見證了 AI alignment 社群最重要的一次分裂。開創 RLHF 的那群人最終分道揚鑣——有人認為 OpenAI 在安全上投入不足,有人認為需要在政府層級介入,有人認為需要完全不同的方法(Constitutional AI),有人認為需要更根本的價值觀研究。

但他們都同意一件事:InstructGPT 問的那個問題是對的。語言模型需要被對齊。「預測下一個 token」不等於「理解並遵循人類意圖」。這個認知上的轉變,比任何具體的技術方案都更持久。

也許最能概括 InstructGPT 的一句話是:它發明了一個不完美的解法,用來回答一個正確的問題。不完美的解法正在被持續改進。正確的問題將永遠伴隨著 AI 的發展。

而那 20 位作者——分散在 Anthropic、ARC、NIST、Thinking Machines Lab、Meaning Alignment Institute 和仍然留在 OpenAI 的少數幾位——他們各自用不同的方式,繼續在回答同一個問題。