被 OpenAI 解僱的人,募了十五億美元

2024 年春天,OpenAI 超級對齊團隊在兩個月內瓦解。被解僱的研究員 Leopold Aschenbrenner 寫了一份 165 頁的 AGI 預言書,然後用它募了十五億美元。離開的團隊負責人去了 Anthropic,共同創辦人去創辦了估值 320 億的新公司。這是一個關於安全研究者、吹哨者和基金經理的故事——有時候,這三個角色是同一個人。

被 OpenAI 解僱的人,募了十五億美元

本文為「AI 經典文獻回顧」系列第十九篇(下),講述 Situational Awareness 作者 Leopold Aschenbrenner 的故事,以及 2024 年春天 OpenAI 超級對齊團隊瓦解的完整經過。上篇見〈165 頁的算術題:從 GPT-4 到超級智慧要幾個數量級〉。

封面圖


十九歲的畢業致辭代表

2021 年,一個十九歲的德國男孩以榮譽畢業生(valedictorian)的身份從哥倫比亞大學畢業。他主修經濟學和數學統計,在校期間共同創辦了大學的有效利他主義(EA)分會。他的父母都是醫生,他在柏林的約翰·甘迺迪學校長大。

Leopold Aschenbrenner 畢業後去了牛津大學的全球優先事項研究所做研究,與 Philip Trammell 合著了一篇關於長期經濟成長的工作論文。2022 年 2 月,他加入了 FTX Future Fund——Sam Bankman-Fried 的有效利他主義慈善組織——擔任計畫贊助人。九個月後,FTX 破產,他在破產前離開了。2023 年,他加入了 OpenAI 的超級對齊團隊。

超級對齊團隊是 Ilya Sutskever 和 Jan Leike 在 2023 年 7 月共同成立的。Sutskever 是 OpenAI 的共同創辦人兼首席科學家,深度學習先驅 Geoffrey Hinton 的博士生。Jan Leike 是 DeepMind 出身的對齊研究者,曾參與 RLHF 的早期工作——如我們在系列第十五篇介紹 InstructGPT 時所寫的,Leike 正是那篇定義了 RLHF 方法的論文的作者之一。OpenAI 承諾把公司 20% 的算力分配給這個團隊,使命是在四年內解決「如何控制比人類聰明得多的 AI 系統」。

Leopold 在這個團隊裡共同撰寫了一篇名為「Weak to Strong Generalization」的論文,後來在 2024 年的 ICML 發表。這篇論文探索了一個核心問題:能不能用較弱的 AI 來監督較強的 AI?這個問題直接關係到超級對齊的可行性——如果你無法用人類的智慧來評判超人 AI 的輸出,也許可以用「稍微弱一點的 AI」來做中介。

但 Leopold 在 OpenAI 做的不只是研究。


一份備忘錄引發的解僱

2023 年底,Leopold 向 OpenAI 董事會提交了一份備忘錄。備忘錄的內容是警告:中國和其他外國實體可能針對 OpenAI 進行工業間諜活動,而 OpenAI 的安全措施嚴重不足。這份備忘錄加劇了董事會與管理層之間關於安全問題的緊張關係。

隨後的故事在我們這個系列中並不陌生。2023 年 11 月,OpenAI 董事會解職了 CEO Sam Altman。Ilya Sutskever 參與了這個決定。五天後,Altman 復職,董事會被重組。Sutskever 公開表示後悔。這場鬧劇讓全世界看到了 OpenAI 內部關於安全與商業化之間的裂痕有多深。

Leopold 的備忘錄就是在這個背景下被提交的。他後來收到了人事部門的警告。2024 年 4 月,他被解僱。官方理由是「資訊洩漏」。Leopold 的說法是:所謂洩漏只是一份「無害的腦力激盪文件」,他分享給了三位外部研究者徵求意見。他表示,被解僱時被明確告知,那份安全備忘錄才是真正的原因。

一個 22 歲的研究員因為向董事會提出安全擔憂而被解僱。這件事本身就足以成為新聞。但接下來發生的事情讓它變成了一個更大的故事。


2024 年春天:超級對齊團隊的最後一季

Leopold 被解僱的時間是 2024 年 4 月。接下來的兩個月像推倒骨牌。

5 月 14 日,Ilya Sutskever 宣布離開 OpenAI。這位共同創辦人、首席科學家、超級對齊團隊的精神領袖,在公司待了將近九年後選擇離開。他沒有公開批評,只是簡單地說他要開始新的事業。

兩天後,5 月 16 日,Jan Leike 辭職。但他不像 Sutskever 那樣安靜離開。Leike 在 X 上發了一連串帖文,措辭異常直接。「過去幾年,安全文化和流程已經退居光鮮產品之後。」他寫道。他說團隊在過去幾個月一直在「逆風航行」,為計算資源「苦苦掙扎」。OpenAI 承諾給超級對齊團隊的 20% 算力,在實踐中從未真正兌現。

5 月 17 日,OpenAI 正式解散超級對齊團隊。成立不到一年,使命是四年內解決控制超人 AI 的問題,結果連一年都沒撐過。

5 月 28 日,Leike 宣布加入 Anthropic。Anthropic——如我們在系列第十七篇介紹 Constitutional AI 時所寫的——本身就是 2021 年從 OpenAI 出走的那批人創辦的。Leike 選擇去那裡,等於是在說:如果你認為 AI 安全很重要,OpenAI 已經不是做這件事的地方了。

6 月 4 日,兩件事同時發生。十三位 AI 工作者發表了「Right to Warn」公開信,呼籲 AI 公司停止用保密協議封住員工的嘴,建立匿名報告機制,保護吹哨者。簽署者中有十一位來自 OpenAI,包括 Daniel Kokotajlo——稍後會講到他的故事。同一天,Leopold 發表了 Situational Awareness

從 4 月到 6 月,在不到兩個月的時間裡,OpenAI 失去了超級對齊團隊的創建者(Sutskever)、負責人(Leike)、和一位核心研究員(Leopold),團隊本身也被解散。三個人走向了三個完全不同的方向,而他們各自的選擇,恰好映射了 AI 安全領域的三種路線。


四條分岔路

Leopold 選擇了最出人意料的一條路。他沒有去另一家 AI 公司,沒有去學術界,沒有去非營利組織。他用自己那篇 165 頁的文章——他的分析框架、他的預測、他的時間線——當作投資論文,創辦了一個對沖基金。

這個基金正式名稱是 Situational Awareness LP,最初媒體稱之為 Exponent Labs。支持者包括 Patrick Collison 和 John Collison(Stripe 共同創辦人)、Daniel Gross、Nat Friedman。Leopold 和 Patrick Collison 的關係可以追溯到 2021 年的一次晚宴。到 2025 年,基金管理規模超過了十五億美元。2025 年上半年的報酬率是 47%,同期標普 500 只有 6%。

基金的投資策略直接反映了 Situational Awareness 的論點。如果 AGI 即將到來,你應該投資 AGI 需要的基礎設施:資料中心不動產、電力設備、冷卻技術。他的 2025 年第四季持倉報告顯示,他買進了近五千萬美元的 Kilroy Realty(資料中心不動產)、近三千萬美元的 WhiteFiber、以及 Babcock & Wilcox(能源設備)。值得注意的是,他做多 Intel 而做空 Nvidia——認為 AI 晶片市場的競爭格局即將改變。一個沒有任何金融業經歷的 23 歲年輕人,純粹靠一篇論文的影響力和投資人對他願景的認同,募到了十五億美元。

Ilya Sutskever 走了另一條路。2024 年 6 月,他宣布創辦 Safe Superintelligence Inc.(SSI),使命是建立安全的超級智慧 AI。這個名字就是一份宣言:不做別的,就做安全的超級智慧。2024 年 9 月首輪融資十億美元,估值五十億。到 2025 年初,第二輪融資二十億美元,估值三百二十億。Alphabet 和 Nvidia 都是投資者。但 SSI 只有大約二十名員工,沒有產品,沒有營收。2025 年上半年,Meta 試圖收購 SSI,被 Sutskever 拒絕。

Jan Leike 去了 Anthropic,加入了專注於可擴展監督、弱到強泛化和自動化對齊研究的團隊。他把在 OpenAI 沒能完成的工作帶到了一個他認為真正重視安全的環境裡。Anthropic 的創辦故事我們已經在系列第十七篇中詳細寫過——Dario Amodei、Daniela Amodei 和五位共同創辦人在 2021 年離開 OpenAI,理由同樣是對安全優先級的不滿。Leike 在三年後走了一模一樣的路。

第四個人是 Daniel Kokotajlo。他在 2022 到 2024 年間在 OpenAI 的治理部門工作,2024 年 4 月辭職——和 Leopold 被解僱在同一個月。但 Kokotajlo 做了一件更具代價的事:他拒絕簽署 OpenAI 的不貶低條款(non-disparagement clause),為此放棄了大約兩百萬美元的股權。他後來被 TIME 雜誌列為 2024 年 AI 最有影響力的一百人之一。他創辦了 AI Futures Project,一個位於 Berkeley 的非營利組織,研究 AI 的未來影響。2025 年 4 月,他和合作者發布了「AI 2027」報告,預測 2027 年底出現完全自主的 AI——和 Leopold 的時間線幾乎吻合。

四個人,四條路:對沖基金、純研究公司、成熟的 AI 公司、非營利組織。從 OpenAI 的同一個角落出發,走向了 AI 生態系統的四個象限。


先知、吹哨者、基金經理

Leopold 的故事有一個讓人不太舒服的維度。他是一個安全研究者,因為向公司董事會提出安全警告而被解僱。然後他寫了一篇關於 AGI 即將到來的長文,引起了巨大的公眾關注。然後他用這篇文章的預測框架創辦了一個投資基金,賭的就是他自己的預測會成真。

這三個身份——安全研究者、吹哨者、基金經理——之間存在著微妙但不可忽視的張力。

作為安全研究者,他的訊息是「AGI 快來了,我們還沒準備好」。作為吹哨者,他的訊息是「我的前雇主不認真對待安全問題」。作為基金經理,他的經濟利益繫於 AGI 基礎設施投資的持續增長——而這種增長最好的燃料,恰恰是「AGI 快來了」的敘事。

這不是說他在故意製造恐慌來賺錢。Leopold 的信仰看起來是真誠的。他在被解僱之前就持有這些觀點,他的安全備忘錄比投資基金早了至少半年。但結構性的利益衝突不需要主觀惡意就能成立。當一個人同時是預測者和預測結果的受益者時,他的預測在公共話語中的可信度就不可避免地受到影響。他的基金 2025 年上半年 47% 的報酬率讓這個問題更加尖銳:Leopold 的預言正在讓他自己和他的投資人變得非常富有。

EA Forum 上的批評者抓住了這個矛盾。他們指出,Leopold 的「國家安全化」敘事是表演性的而非僅僅是描述性的。它不只是在分析世界,它在塑造世界。當華盛頓的政策制定者讀到「AGI 是國安議題,等級和核武器相當」的時候,他們的反應(增加投資、加速開發、收緊出口管制)恰好讓 Leopold 的投資論文更加成立。

另一方面也有人為他辯護。他的預測有具體的、可驗證的框架——OOM 分析不是空泛的末日預言,而是一道可以用數字檢驗的算術題。到目前為止,他對基礎設施投資規模的預測確實準確。如果他真的看到了多數人還沒看到的東西,用自己的錢去賭這個判斷,某種程度上是最真誠的承諾方式。投資人常說,最值得信任的分析師是那個把自己的錢放在自己的嘴巴旁邊的人。


吹哨者的代價

Leopold 和 Kokotajlo 的故事,連同「Right to Warn」公開信,共同揭示了一個 AI 產業的結構性問題:在安全和商業化的拉鋸中,知情者能說多少話?

OpenAI 的不貶低條款曾要求離職員工承諾不公開批評公司,否則可能失去已歸屬的股權。Kokotajlo 放棄了大約兩百萬美元來保持說話的自由。Leopold 被解僱而不是主動辭職,所以他的處境不同,但解僱本身就是代價。「Right to Warn」公開信的十三位簽署者中有六位選擇匿名,這本身就說明了風險。

在 Altman 復職、超級對齊團隊解散之後,OpenAI 最終撤銷了不貶低條款的強制股權沒收條款。但這不是因為 OpenAI 自省了——是因為公開壓力太大。公開信的標題把問題說得很清楚:「一般的吹哨者保護法律聚焦於違法行為,但我們擔心的許多風險尚未被監管。」如果沒有法律規定 AI 公司必須做什麼,員工擔心公司做得不夠就不構成法律意義上的吹哨。他們只是在表達意見——而表達意見是可以被開除的。

這個困境在我們的系列中反覆出現。在第十二篇介紹 Stochastic Parrots 時,我們寫了 Timnit Gebru 和 Margaret Mitchell 被 Google 解僱的故事。在第十七篇介紹 Constitutional AI 時,我們寫了 Dario Amodei 帶七人團隊出走 OpenAI 的故事。每一次的模式驚人地相似:有人認為公司不夠重視安全或倫理 → 內部衝突 → 離開或被開除 → 在外面做原本想在裡面做的事。Leopold 的故事是這個模式的最新版本。


時間線的修正

Leopold 的算術題發表將近兩年了。他的核心預測——AGI 在 2027 年「極其合理」——仍然沒有被證實,也沒有被證偽。

但即使是最相信短時間線的人也在調整預期。Daniel Kokotajlo 在 2025 年 4 月發布「AI 2027」報告時,預測 2027 年底出現完全自主 AI。但到了 2025 年 11 月,他把 AGI 的中位數估計從 2027 年延後到了「大約 2030 年,不確定性很大」。從 2027 到 2030,聽起來只差三年,但在一個以月為單位衡量進展的領域裡,三年是很長的重新校準。

Ilya Sutskever 的 SSI 估值飆升到三百二十億美元,但沒有產品、沒有營收、只有二十名員工。這個公司的存在本身就是一個 bet:賭 Sutskever 的大腦裡裝著通往超級智慧的路線圖。如果那條路比預期的長得多——如果不是三年而是十年或二十年——三百二十億的估值要怎麼合理化?

Leike 在 Anthropic 的工作進展比較紮實,但也比較安靜。Anthropic 在 2025 年持續發布 Claude 的新版本,在安全評估框架上走在產業前面。Leike 帶過去的研究方向——可擴展監督、弱到強泛化——正在產出論文和技術成果,但離「解決超級對齊」還很遠。

Leopold 的基金繼續賺錢。2026 年 3 月,全球 AI 基礎設施投資仍在加速。就算 AGI 延後到 2030 年或更晚,只要投資人相信它終究會來,算力基建的需求就會持續。Leopold 的投資論文比他的 AGI 時間線更有韌性——基建的價值不取決於 AGI 是 2027 年來還是 2032 年來,只要方向是對的就行。


預言的回聲

在我們這個系列的二十幾篇文章中,一個主題反覆出現:AI 領域的重要文獻往往不只是學術成果,它們是個人信念、機構利益和時代焦慮的結晶。

Stochastic Parrots 是四位作者在 Google 內部爭取倫理空間的結果,其中兩位為此丟了工作。Constitutional AI 是七個人離開 OpenAI 後寫的「我們相信的做法」宣言,背後是一家估值數百億美元的公司。Situational Awareness 也不例外。它是一個被解僱的年輕人用 165 頁來說「我被開除是因為我是對的」。

這不是在否定這些文獻的價值。恰恰相反——它們之所以有力量,正是因為背後有真實的代價。Gebru 失去了工作。Amodei 放棄了 OpenAI 的股份。Leopold 被解僱。Kokotajlo 放棄了兩百萬美元。這些不是在辦公室裡寫白皮書的人。他們把自己的職涯押在了自己的判斷上。

Leopold 的判斷是否正確,2026 年的我們還無法定論。但有一件事是確定的:Situational Awareness 改變了 AI 安全的話語空間。在它發表之前,「AGI 可能在幾年內到來」在多數圈子裡還是邊緣觀點。在它發表之後,這至少成了一個值得嚴肅討論的可能性。一個 22 歲的年輕人用一篇長文做到了很多資深研究者幾十年沒做到的事:讓 AGI 時間線成為主流對話。

他是否也在不經意間,讓那個他擔心的未來——一場魯莽的 AGI 軍備競賽——變得更有可能發生?

這個問題或許是 Situational Awareness 留給我們的最重要的一道算術題。而它的答案,不在 OOM 裡。