AI 產業動態

被 OpenAI 解僱的人，募了十五億美元

2024 年春天，OpenAI 超級對齊團隊在兩個月內瓦解。被解僱的研究員 Leopold Aschenbrenner 寫了一份 165 頁的 AGI 預言書，然後用它募了十五億美元。離開的團隊負責人去了 Anthropic，共同創辦人去創辦了估值 320 億的新公司。這是一個關於安全研究者、吹哨者和基金經理的故事——有時候，這三個角色是同一個人。

2024 年 6 月 3 日 · 來源： situational-awareness.ai

本文為「AI 經典文獻回顧」系列第十九篇（下），講述 Situational Awareness 作者 Leopold Aschenbrenner 的故事，以及 2024 年春天 OpenAI 超級對齊團隊瓦解的完整經過。上篇見〈165 頁的算術題：從 GPT-4 到超級智慧要幾個數量級〉。

封面圖

十九歲的畢業致辭代表

2021 年，一個十九歲的德國男孩以榮譽畢業生（valedictorian）的身份從哥倫比亞大學畢業。他主修經濟學和數學統計，在校期間共同創辦了大學的有效利他主義（EA）分會。他的父母都是醫生，他在柏林的約翰·甘迺迪學校長大。

Leopold Aschenbrenner 畢業後去了牛津大學的全球優先事項研究所做研究，與 Philip Trammell 合著了一篇關於長期經濟成長的工作論文。2022 年 2 月，他加入了 FTX Future Fund——Sam Bankman-Fried 的有效利他主義慈善組織——擔任計畫贊助人。九個月後，FTX 破產，他在破產前離開了。2023 年，他加入了 OpenAI 的超級對齊團隊。

超級對齊團隊是 Ilya Sutskever 和 Jan Leike 在 2023 年 7 月共同成立的。Sutskever 是 OpenAI 的共同創辦人兼首席科學家，深度學習先驅 Geoffrey Hinton 的博士生。Jan Leike 是 DeepMind 出身的對齊研究者，曾參與 RLHF 的早期工作——如我們在系列第十五篇介紹 InstructGPT 時所寫的，Leike 正是那篇定義了 RLHF 方法的論文的作者之一。OpenAI 承諾把公司 20% 的算力分配給這個團隊，使命是在四年內解決「如何控制比人類聰明得多的 AI 系統」。

Leopold 在這個團隊裡共同撰寫了一篇名為「Weak to Strong Generalization」的論文，後來在 2024 年的 ICML 發表。這篇論文探索了一個核心問題：能不能用較弱的 AI 來監督較強的 AI？這個問題直接關係到超級對齊的可行性——如果你無法用人類的智慧來評判超人 AI 的輸出，也許可以用「稍微弱一點的 AI」來做中介。

但 Leopold 在 OpenAI 做的不只是研究。

一份備忘錄引發的解僱

2023 年底，Leopold 向 OpenAI 董事會提交了一份備忘錄。備忘錄的內容是警告：中國和其他外國實體可能針對 OpenAI 進行工業間諜活動，而 OpenAI 的安全措施嚴重不足。這份備忘錄加劇了董事會與管理層之間關於安全問題的緊張關係。

隨後的故事在我們這個系列中並不陌生。2023 年 11 月，OpenAI 董事會解職了 CEO Sam Altman。Ilya Sutskever 參與了這個決定。五天後，Altman 復職，董事會被重組。Sutskever 公開表示後悔。這場鬧劇讓全世界看到了 OpenAI 內部關於安全與商業化之間的裂痕有多深。

Leopold 的備忘錄就是在這個背景下被提交的。他後來收到了人事部門的警告。2024 年 4 月，他被解僱。官方理由是「資訊洩漏」。Leopold 的說法是：所謂洩漏只是一份「無害的腦力激盪文件」，他分享給了三位外部研究者徵求意見。他表示，被解僱時被明確告知，那份安全備忘錄才是真正的原因。

一個 22 歲的研究員因為向董事會提出安全擔憂而被解僱。這件事本身就足以成為新聞。但接下來發生的事情讓它變成了一個更大的故事。

2024 年春天：超級對齊團隊的最後一季

Leopold 被解僱的時間是 2024 年 4 月。接下來的兩個月像推倒骨牌。

5 月 14 日，Ilya Sutskever 宣布離開 OpenAI。這位共同創辦人、首席科學家、超級對齊團隊的精神領袖，在公司待了將近九年後選擇離開。他沒有公開批評，只是簡單地說他要開始新的事業。

兩天後，5 月 16 日，Jan Leike 辭職。但他不像 Sutskever 那樣安靜離開。Leike 在 X 上發了一連串帖文，措辭異常直接。「過去幾年，安全文化和流程已經退居光鮮產品之後。」他寫道。他說團隊在過去幾個月一直在「逆風航行」，為計算資源「苦苦掙扎」。OpenAI 承諾給超級對齊團隊的 20% 算力，在實踐中從未真正兌現。

5 月 17 日，OpenAI 正式解散超級對齊團隊。成立不到一年，使命是四年內解決控制超人 AI 的問題，結果連一年都沒撐過。

5 月 28 日，Leike 宣布加入 Anthropic。Anthropic——如我們在系列第十七篇介紹 Constitutional AI 時所寫的——本身就是 2021 年從 OpenAI 出走的那批人創辦的。Leike 選擇去那裡，等於是在說：如果你認為 AI 安全很重要，OpenAI 已經不是做這件事的地方了。

6 月 4 日，兩件事同時發生。十三位 AI 工作者發表了「Right to Warn」公開信，呼籲 AI 公司停止用保密協議封住員工的嘴，建立匿名報告機制，保護吹哨者。簽署者中有十一位來自 OpenAI，包括 Daniel Kokotajlo——稍後會講到他的故事。同一天，Leopold 發表了 Situational Awareness。

從 4 月到 6 月，在不到兩個月的時間裡，OpenAI 失去了超級對齊團隊的創建者（Sutskever）、負責人（Leike）、和一位核心研究員（Leopold），團隊本身也被解散。三個人走向了三個完全不同的方向，而他們各自的選擇，恰好映射了 AI 安全領域的三種路線。

四條分岔路

Leopold 選擇了最出人意料的一條路。他沒有去另一家 AI 公司，沒有去學術界，沒有去非營利組織。他用自己那篇 165 頁的文章——他的分析框架、他的預測、他的時間線——當作投資論文，創辦了一個對沖基金。

這個基金正式名稱是 Situational Awareness LP，最初媒體稱之為 Exponent Labs。支持者包括 Patrick Collison 和 John Collison（Stripe 共同創辦人）、Daniel Gross、Nat Friedman。Leopold 和 Patrick Collison 的關係可以追溯到 2021 年的一次晚宴。到 2025 年，基金管理規模超過了十五億美元。2025 年上半年的報酬率是 47%，同期標普 500 只有 6%。

基金的投資策略直接反映了 Situational Awareness 的論點。如果 AGI 即將到來，你應該投資 AGI 需要的基礎設施：資料中心不動產、電力設備、冷卻技術。他的 2025 年第四季持倉報告顯示，他買進了近五千萬美元的 Kilroy Realty（資料中心不動產）、近三千萬美元的 WhiteFiber、以及 Babcock & Wilcox（能源設備）。值得注意的是，他做多 Intel 而做空 Nvidia——認為 AI 晶片市場的競爭格局即將改變。一個沒有任何金融業經歷的 23 歲年輕人，純粹靠一篇論文的影響力和投資人對他願景的認同，募到了十五億美元。

Ilya Sutskever 走了另一條路。2024 年 6 月，他宣布創辦 Safe Superintelligence Inc.（SSI），使命是建立安全的超級智慧 AI。這個名字就是一份宣言：不做別的，就做安全的超級智慧。2024 年 9 月首輪融資十億美元，估值五十億。到 2025 年初，第二輪融資二十億美元，估值三百二十億。Alphabet 和 Nvidia 都是投資者。但 SSI 只有大約二十名員工，沒有產品，沒有營收。2025 年上半年，Meta 試圖收購 SSI，被 Sutskever 拒絕。

Jan Leike 去了 Anthropic，加入了專注於可擴展監督、弱到強泛化和自動化對齊研究的團隊。他把在 OpenAI 沒能完成的工作帶到了一個他認為真正重視安全的環境裡。Anthropic 的創辦故事我們已經在系列第十七篇中詳細寫過——Dario Amodei、Daniela Amodei 和五位共同創辦人在 2021 年離開 OpenAI，理由同樣是對安全優先級的不滿。Leike 在三年後走了一模一樣的路。

第四個人是 Daniel Kokotajlo。他在 2022 到 2024 年間在 OpenAI 的治理部門工作，2024 年 4 月辭職——和 Leopold 被解僱在同一個月。但 Kokotajlo 做了一件更具代價的事：他拒絕簽署 OpenAI 的不貶低條款（non-disparagement clause），為此放棄了大約兩百萬美元的股權。他後來被 TIME 雜誌列為 2024 年 AI 最有影響力的一百人之一。他創辦了 AI Futures Project，一個位於 Berkeley 的非營利組織，研究 AI 的未來影響。2025 年 4 月，他和合作者發布了「AI 2027」報告，預測 2027 年底出現完全自主的 AI——和 Leopold 的時間線幾乎吻合。

四個人，四條路：對沖基金、純研究公司、成熟的 AI 公司、非營利組織。從 OpenAI 的同一個角落出發，走向了 AI 生態系統的四個象限。

先知、吹哨者、基金經理

Leopold 的故事有一個讓人不太舒服的維度。他是一個安全研究者，因為向公司董事會提出安全警告而被解僱。然後他寫了一篇關於 AGI 即將到來的長文，引起了巨大的公眾關注。然後他用這篇文章的預測框架創辦了一個投資基金，賭的就是他自己的預測會成真。

這三個身份——安全研究者、吹哨者、基金經理——之間存在著微妙但不可忽視的張力。

作為安全研究者，他的訊息是「AGI 快來了，我們還沒準備好」。作為吹哨者，他的訊息是「我的前雇主不認真對待安全問題」。作為基金經理，他的經濟利益繫於 AGI 基礎設施投資的持續增長——而這種增長最好的燃料，恰恰是「AGI 快來了」的敘事。

這不是說他在故意製造恐慌來賺錢。Leopold 的信仰看起來是真誠的。他在被解僱之前就持有這些觀點，他的安全備忘錄比投資基金早了至少半年。但結構性的利益衝突不需要主觀惡意就能成立。當一個人同時是預測者和預測結果的受益者時，他的預測在公共話語中的可信度就不可避免地受到影響。他的基金 2025 年上半年 47% 的報酬率讓這個問題更加尖銳：Leopold 的預言正在讓他自己和他的投資人變得非常富有。

EA Forum 上的批評者抓住了這個矛盾。他們指出，Leopold 的「國家安全化」敘事是表演性的而非僅僅是描述性的。它不只是在分析世界，它在塑造世界。當華盛頓的政策制定者讀到「AGI 是國安議題，等級和核武器相當」的時候，他們的反應（增加投資、加速開發、收緊出口管制）恰好讓 Leopold 的投資論文更加成立。

另一方面也有人為他辯護。他的預測有具體的、可驗證的框架——OOM 分析不是空泛的末日預言，而是一道可以用數字檢驗的算術題。到目前為止，他對基礎設施投資規模的預測確實準確。如果他真的看到了多數人還沒看到的東西，用自己的錢去賭這個判斷，某種程度上是最真誠的承諾方式。投資人常說，最值得信任的分析師是那個把自己的錢放在自己的嘴巴旁邊的人。

吹哨者的代價

Leopold 和 Kokotajlo 的故事，連同「Right to Warn」公開信，共同揭示了一個 AI 產業的結構性問題：在安全和商業化的拉鋸中，知情者能說多少話？

OpenAI 的不貶低條款曾要求離職員工承諾不公開批評公司，否則可能失去已歸屬的股權。Kokotajlo 放棄了大約兩百萬美元來保持說話的自由。Leopold 被解僱而不是主動辭職，所以他的處境不同，但解僱本身就是代價。「Right to Warn」公開信的十三位簽署者中有六位選擇匿名，這本身就說明了風險。

在 Altman 復職、超級對齊團隊解散之後，OpenAI 最終撤銷了不貶低條款的強制股權沒收條款。但這不是因為 OpenAI 自省了——是因為公開壓力太大。公開信的標題把問題說得很清楚：「一般的吹哨者保護法律聚焦於違法行為，但我們擔心的許多風險尚未被監管。」如果沒有法律規定 AI 公司必須做什麼，員工擔心公司做得不夠就不構成法律意義上的吹哨。他們只是在表達意見——而表達意見是可以被開除的。

這個困境在我們的系列中反覆出現。在第十二篇介紹 Stochastic Parrots 時，我們寫了 Timnit Gebru 和 Margaret Mitchell 被 Google 解僱的故事。在第十七篇介紹 Constitutional AI 時，我們寫了 Dario Amodei 帶七人團隊出走 OpenAI 的故事。每一次的模式驚人地相似：有人認為公司不夠重視安全或倫理 → 內部衝突 → 離開或被開除 → 在外面做原本想在裡面做的事。Leopold 的故事是這個模式的最新版本。

時間線的修正

Leopold 的算術題發表將近兩年了。他的核心預測——AGI 在 2027 年「極其合理」——仍然沒有被證實，也沒有被證偽。

但即使是最相信短時間線的人也在調整預期。Daniel Kokotajlo 在 2025 年 4 月發布「AI 2027」報告時，預測 2027 年底出現完全自主 AI。但到了 2025 年 11 月，他把 AGI 的中位數估計從 2027 年延後到了「大約 2030 年，不確定性很大」。從 2027 到 2030，聽起來只差三年，但在一個以月為單位衡量進展的領域裡，三年是很長的重新校準。

Ilya Sutskever 的 SSI 估值飆升到三百二十億美元，但沒有產品、沒有營收、只有二十名員工。這個公司的存在本身就是一個 bet：賭 Sutskever 的大腦裡裝著通往超級智慧的路線圖。如果那條路比預期的長得多——如果不是三年而是十年或二十年——三百二十億的估值要怎麼合理化？

Leike 在 Anthropic 的工作進展比較紮實，但也比較安靜。Anthropic 在 2025 年持續發布 Claude 的新版本，在安全評估框架上走在產業前面。Leike 帶過去的研究方向——可擴展監督、弱到強泛化——正在產出論文和技術成果，但離「解決超級對齊」還很遠。

Leopold 的基金繼續賺錢。2026 年 3 月，全球 AI 基礎設施投資仍在加速。就算 AGI 延後到 2030 年或更晚，只要投資人相信它終究會來，算力基建的需求就會持續。Leopold 的投資論文比他的 AGI 時間線更有韌性——基建的價值不取決於 AGI 是 2027 年來還是 2032 年來，只要方向是對的就行。

預言的回聲

在我們這個系列的二十幾篇文章中，一個主題反覆出現：AI 領域的重要文獻往往不只是學術成果，它們是個人信念、機構利益和時代焦慮的結晶。

Stochastic Parrots 是四位作者在 Google 內部爭取倫理空間的結果，其中兩位為此丟了工作。Constitutional AI 是七個人離開 OpenAI 後寫的「我們相信的做法」宣言，背後是一家估值數百億美元的公司。Situational Awareness 也不例外。它是一個被解僱的年輕人用 165 頁來說「我被開除是因為我是對的」。

這不是在否定這些文獻的價值。恰恰相反——它們之所以有力量，正是因為背後有真實的代價。Gebru 失去了工作。Amodei 放棄了 OpenAI 的股份。Leopold 被解僱。Kokotajlo 放棄了兩百萬美元。這些不是在辦公室裡寫白皮書的人。他們把自己的職涯押在了自己的判斷上。

Leopold 的判斷是否正確，2026 年的我們還無法定論。但有一件事是確定的：Situational Awareness 改變了 AI 安全的話語空間。在它發表之前，「AGI 可能在幾年內到來」在多數圈子裡還是邊緣觀點。在它發表之後，這至少成了一個值得嚴肅討論的可能性。一個 22 歲的年輕人用一篇長文做到了很多資深研究者幾十年沒做到的事：讓 AGI 時間線成為主流對話。

他是否也在不經意間，讓那個他擔心的未來——一場魯莽的 AGI 軍備競賽——變得更有可能發生？

這個問題或許是 Situational Awareness 留給我們的最重要的一道算術題。而它的答案，不在 OOM 裡。