清單上沒有的東西——Sutskever 的沉默比推薦更有意義

Sutskever 的閱讀清單沒有強化學習、沒有 GAN、沒有 GPT,連他自己最有名的成果都不放。這些刻意的遺漏,比清單上的二十七個項目更能揭示他的 AI 世界觀。從清單的沉默到 SSI 的創辦,一位科學家的知識結構如何變成一家公司的使命。

清單上沒有的東西——Sutskever 的沉默比推薦更有意義

本文為「Ilya Sutskever 推薦讀什麼」系列第 11 篇(終篇)。本系列解讀 OpenAI 共同創辦人 Ilya Sutskever 給 John Carmack 的傳奇閱讀清單,探索一位頂尖 AI 科學家眼中「90% 重要的東西」。

七個顯眼的缺席

走完前十篇,我們把 Sutskever 閱讀清單上的二十七個項目幾乎翻了一遍。壓縮理論、複雜性動力學、智慧的數學定義、CNN、RNN、注意力機制、Transformer、記憶與推理、規模定律、變分有損自編碼器。這些主題串成了一條從理論到實作的清晰主線。但在最後一篇,我想換一個角度。不看清單上有什麼,而是看清單上「沒有」什麼。

因為一個人選擇推薦什麼,固然說明了他重視什麼。但他選擇不推薦什麼,有時候更能揭示他的思維方式。

這份號稱涵蓋「90% 重要知識」的清單裡,至少有七個重大缺席:沒有強化學習,沒有 GAN,沒有擴散模型,沒有 GPT 也沒有 BERT,沒有多模態,沒有 prompt engineering 或 in-context learning,沒有 RLHF 或 alignment。這些不是邊緣領域。它們是過去十年 AI 發展中最熱門、最具影響力的方向,其中好幾個跟 Sutskever 自己的工作直接相關。他不是不知道這些東西。他是知道了之後,選擇不放進來。

這個選擇本身,就是一份獨立的閱讀清單。

強化學習:整個領域被略過

先從最大的缺席說起。DeepMind 的 DQN 在 2013 年讓神經網路學會打 Atari 電玩,這篇論文被引用超過兩萬次。2016 年的 AlphaGo 擊敗李世乭,是 AI 史上最具戲劇性的公開展示,全世界的新聞頭條都在報導。2017 年,OpenAI 的舒曼(John Schulman)發表了 PPO(Proximal Policy Optimization),後來成為幾乎所有大型語言模型微調的標準演算法。再到 RLHF(Reinforcement Learning from Human Feedback),讓 ChatGPT 從一個能力強大但難以控制的語言模型,變成一個可以對話、可以遵循指令的產品。這個技術直接催生了 2022 年底的 AI 消費浪潮。

這些全部不在清單上。

而且 PPO 的發明者舒曼是 Sutskever 在 OpenAI 的同事,兩人共事超過六年。清單上甚至有一篇舒曼共同掛名的論文(Variational Lossy Autoencoder),但 PPO 這篇定義了整個 RLHF 時代的工作,沒有被選進來。Sutskever 顯然不是因為不熟悉而遺漏,而是做了一個判斷:強化學習是一種「工程調校」的手段,不屬於他心目中的基礎原理。你可以用 RL 讓模型變得更有用、更安全、更對齊人類偏好,但 RL 本身並沒有回答「智慧是什麼」這個根本問題。

沒有 GAN,沒有擴散模型

這兩個缺席我們在篇 10 已經詳細討論過,這裡簡要收束。古德費洛(Ian Goodfellow)2014 年提出 GAN,用兩個神經網路互相對抗來生成影像,掀起了從 StyleGAN 到 DeepFake 的軍備競賽。擴散模型後來催生了 DALL-E 2、Stable Diffusion、Midjourney,讓「AI 生圖」成為大眾日常。這兩個技術路線定義了大部分人對「AI 創造力」的第一印象。

但從 Sutskever 的視角看,GAN 的核心機制是對抗博弈,跟「壓縮」沒有直接關係。擴散模型的核心是逐步去噪,數學框架跟壓縮的直覺距離更遠。他選了 Variational Lossy Autoencoder 作為整份清單中唯一的生成模型代表,因為它的架構本身就是「壓縮然後重建」:編碼器壓縮、潛在空間儲存、解碼器重建。在 Sutskever 的敘事裡,GAN 和擴散模型有它們的重要性,但它們不在「壓縮即理解」這條主線上。

沒有 GPT,沒有 BERT:連自己的成果也不放

這也許是整份清單中最令人驚訝的遺漏。Sutskever 是 GPT 系列的核心推手。2018 年的 GPT-1、2019 年的 GPT-2、2020 年的 GPT-3,他都是主要貢獻者。GPT-3 那篇論文的標題叫〈Language Models are Few-Shot Learners〉,展示了一個足夠大的語言模型可以不需要額外訓練,光靠提示就能處理各種任務。這篇論文徹底改變了 NLP 的發展方向,催生了後來的 ChatGPT 和整個大型語言模型產業。Google 的 BERT(2018)走的是另一條路,用雙向編碼改進了幾乎所有自然語言理解任務的基準成績。這兩個架構合在一起,基本上定義了 2018 年之後的 AI 格局。

Sutskever 一篇都沒放。

我的解讀是:在他看來,GPT 不是一個需要獨立理解的「發明」,而是清單上已有概念的自然推導結果。你搞懂了 Transformer,搞懂了 Scaling Laws,你自然會得出「把 Transformer 做大、餵大量資料」這個結論。GPT 是應用,不是原理。就像牛頓不會把蘋果從樹上掉下來這件事列進《自然哲學的數學原理》。蘋果掉下來是萬有引力的展示,不是萬有引力本身。Sutskever 對 GPT 的態度也是一樣的:它是壓縮理論加上 Transformer 加上 Scaling Laws 的展示,不是獨立的知識節點。

這種自信其實相當驚人。多數人在推薦閱讀清單的時候,很難抗拒把自己最有名的工作放進去。Sutskever 沒有這樣做。他放了一篇自己共同掛名但知名度遠低於 GPT 的 Variational Lossy Autoencoder,卻把 GPT 系列整個排除在外。這說明他對這份清單的定位非常明確:不是「我做了什麼」,而是「你需要懂什麼」。

最熱門的 AI 話題,一個都沒有

再往下看,清單的遺漏變得更耐人尋味。多模態模型,也就是讓 AI 同時處理文字、圖片、音訊、影片的技術,是 2023 年以後最重要的技術趨勢之一。GPT-4V、Gemini、Claude 3 都把多模態視為核心能力。Prompt engineering 和 in-context learning 從 2022 年開始成為一個專門的研究領域,探討如何透過精心設計的提示讓模型表現得更好。RLHF 和更廣義的 alignment 研究,則是整個 AI 安全領域的核心議題,探討如何確保越來越強大的 AI 系統跟人類的價值觀對齊。

這些主題不只是學術界在討論。它們是創投在投資的、工程師在鑽研的、立法者在辯論的。在 2023 到 2026 年的 AI 生態中,這些話題的聲量遠超清單上的大多數項目。但 Sutskever 一個都沒放。

答案其實只有一個:他推薦的是「永恆的基礎」,不是「當下的熱門」。多模態是把已有的架構(Transformer)套用在不同型態的資料上,原理沒變。Prompt engineering 是使用技巧,不是理論突破。RLHF 是工程方法,不是關於智慧本質的命題。這些都很重要、很有價值、很值得學習,但在 Sutskever 的知識分層裡,它們屬於「應用層」,是你掌握了底下的原理之後,自然會理解、甚至自己推導出來的東西。

清單是一張原理地圖

把所有的缺席放在一起看,一個清晰的圖像浮現了。

清單上有的東西,可以歸納成五條主線:壓縮理論(Kolmogorov 複雜度、MDL 原則、Complexodynamics)、序列建模(RNN、LSTM、序列到序列學習)、注意力與架構(Bahdanau 注意力、Pointer Networks、Transformer)、記憶與推理(Neural Turing Machine、關係網路)、規模與效率(GPipe、Scaling Laws、膨脹捲積、訊息傳遞神經網路)。每一條線都指向同一個問題:機器如何從資料中提取結構?或者用 Sutskever 自己的話來說,機器如何透過壓縮來理解世界?

清單上沒有的東西,也可以歸納成一個類別:應用。不管是 RL 的獎勵最佳化、GAN 的對抗生成、GPT 的大規模自回歸預測、多模態的跨模態對齊、RLHF 的人類偏好學習,它們都是把基礎原理套用在具體問題上的工程成果。Sutskever 的邏輯似乎是:如果你真的懂了原理,你看到這些應用的時候,會覺得它們「理所當然」。你不需要別人推薦你讀 GPT 的論文,因為讀完 Transformer 和 Scaling Laws 之後,GPT 就是一道你自己能解出的習題。

這是一種極其精簡的知識觀。它假設知識有一個底層結構,而且這個結構比它上面長出來的所有應用都更值得投資時間去理解。有人會不同意,認為應用層的創新(比如 RLHF 讓模型變得可用)才是真正改變世界的東西,純原理沒辦法直接拿來用。但 Sutskever 顯然站在另一邊。他相信,花時間讀一本 500 頁的 Kolmogorov 複雜度教科書,長遠來看比讀十篇 prompt engineering 技巧文章更有價值。

從清單到 SSI:知識結構變成一家公司

理解了清單的邏輯之後,再看 Sutskever 離開 OpenAI 之後的選擇,一切都對上了。

2024 年 6 月,Sutskever 離開他共同創辦的 OpenAI,和 Daniel Gross(前蘋果 AI 負責人、Y Combinator 合夥人)、Daniel Levy(OpenAI 研究員)一起創辦了 SSI(Safe Superintelligence Inc.)。公司的核心宣言只有一句話:「Safe Superintelligence is our one and only goal.」安全的超級智慧是唯一的目標。不做產品,不做 API,不做消費應用。只做一件事。

這個公司名稱本身就呼應了閱讀清單裡 Shane Legg 的博士論文《Machine Super Intelligence》。Legg 在那篇論文裡用數學定義了通用智慧,而他後來共同創辦了 DeepMind。Sutskever 的新公司名字裡放了「Super Intelligence」,等於在說:我的目標跟 Legg 論文裡描述的東西是一樣的,而且我要確保它是安全的。

SSI 的發展速度驚人。2024 年 9 月 A 輪融資 10 億美元,估值 50 億。2025 年 4 月第二輪融資 20 億美元,估值跳升到 320 億,Greenoaks Capital 領投,Alphabet 和 NVIDIA 參投。一家沒有產品、沒有營收、只有大約 20 名員工的公司,在不到一年內融了 30 億美元。投資人買的不是財務報表,是 Sutskever 腦子裡的東西。同月,SSI 宣布與 Google Cloud 合作,使用 Google 的 TPU 做為主要運算資源。

2025 年 6 月,共同創辦人 Daniel Gross 離開 SSI,加入 Meta 新成立的 Meta Superintelligence Labs。背景是祖克柏(Mark Zuckerberg)曾試圖直接收購 SSI,被 Sutskever 拒絕。收購不成,Meta 轉而挖走了共同創辦人。Sutskever 在 2025 年 7 月正式接任 CEO,Daniel Levy 擔任總裁。面對記者追問公司方向,他只留下一句簡短回應:「我們知道該怎麼做。」

回頭看清單的知識結構,壓縮理論、複雜性、智慧的數學定義、規模定律,再看 SSI 的使命,安全的超級智慧,兩者之間的對應幾乎是一對一的。清單裡沒有 alignment 研究的具體技術,但清單裡有關於智慧本質的深層理論。Sutskever 似乎相信,真正的 AI 安全不是靠 RLHF 或紅隊測試就能解決的,而是需要從智慧的根本定義出發,重新思考如何建構一個安全的超級智慧系統。這也解釋了為什麼他的公司不做產品。產品需要妥協,而他追求的是原理層面的突破。

2026 年回看:清單預測了什麼,漏掉了什麼

現在是 2026 年 3 月。讓我們用後見之明來給這份清單打個分。

清單押對的部分相當驚人。Transformer 架構在清單上,而今天,從語言模型到影像生成到蛋白質結構預測,Transformer 幾乎統治了 AI 的每一個子領域。Scaling Laws 在清單上,而今天,OpenAI、Google、Anthropic、Meta 每年合計投入數百億美元在算力上,整個 AI 產業的資本配置都建立在「模型越大效果越好」這個經驗定律之上。壓縮與智慧的關係在清單上,Sutskever 早在 2023 年就公開主張「壓縮即理解」,而到了 2025 年,這個觀點被越來越多研究者接受,從資訊瓶頸理論到刪減(pruning)技術的進步,都在印證壓縮和泛化能力之間的深層關聯。

但清單也確實漏掉了一些重要的東西。多模態模型在 2024-2025 年爆發性成長,今天的前沿模型幾乎都是多模態的,純文字模型反而成了特例。強化學習在推理能力上的角色比 Sutskever 似乎預期的更關鍵。OpenAI 的 o1 和 o3 模型用測試時計算(test-time compute)搭配 RL 策略,讓模型在數學和程式設計任務上的表現大幅躍升。具身智慧(embodied AI)和機器人學也在加速發展,而這些領域跟 RL 有很深的連結。

Sutskever 自己在 2024 年 12 月的 NeurIPS 大會上承認了一個轉變:預訓練的時代即將結束,因為「我們只有一個網際網路」,訓練資料是有限的。2025 年 11 月接受 Dwarkesh Patel 訪談時,他更進一步把 AI 發展分為三個時代:2012-2020 年是研究時代,2020-2025 年是規模時代,2026 年以後將回到研究時代。如果規模時代的邏輯是「把已知的方法做大」,那接下來的研究時代需要的是全新的方法。這也許解釋了為什麼清單裡沒有 GPT。GPT 屬於「把已知方法做大」那個階段,而 Sutskever 的目光已經在下一個階段了。

說到底,這份清單也許不是「90% 的 AI」,但它是「Sutskever 認為的 90%」,一位科學家最誠實的知識結構剖面。它反映的不是 AI 領域的全貌,而是一個特定心智模型的全貌。在那個模型裡,壓縮是核心,原理優先於應用,規模是放大器而非目的。這不是唯一正確的心智模型,但它強大、自洽,而且已經被證明有預測力。

我的觀察:讀完清單,你讀的不是論文

走完這十一篇,我最大的收穫不是搞懂了 Kolmogorov 複雜度或 Transformer 的數學。老實說,我到現在也不敢說完全搞懂了。真正的收穫是理解了一種思維方式。

面對一個龐大的知識領域,你不需要讀完所有東西,但你需要找到底層結構。Sutskever 用二十七個項目覆蓋了深度學習的核心脈絡,不是因為他不知道還有成千上萬篇重要論文,而是因為他相信,掌握了這二十七項背後的原理,其他的都可以自己推導。這是一種極度尊重讀者智慧的態度。他不給你現成答案,他給你推導答案的工具。

清單裡的沉默跟推薦一樣重要。沒放 GPT 不代表 GPT 不重要,而是代表「GPT 是原理的推論,不是獨立的知識」。沒放 RLHF 也不代表 alignment 不重要。事實上,他後來創辦的 SSI 把安全放在公司名稱裡。他不推薦 RLHF 的論文,可能正是因為他認為真正的安全不是靠這些具體技術就能解決的,而是需要更深層的理論突破。

最後,一個人的閱讀清單就是他的知識結構圖。從壓縮理論出發,經過序列建模和注意力機制,到 Transformer 和規模定律,最後收束在智慧的數學定義和超級智慧的可能性。這不只是一條學習路徑,而是 Sutskever 看待 AI 的方式。他離開 OpenAI 創辦 SSI、拒絕 Meta 的收購、宣稱「只做一件事」,這些決定的根基都可以在這份清單裡找到。他選擇推薦 Shane Legg 的《Machine Super Intelligence》,而幾年後他創辦的公司就叫「Safe Superintelligence」。閱讀清單不是隨便列的書單,而是一個人用半生學術生涯和工程經驗淬煉出來的世界觀。

讀完整個系列,你走了一遍 Ilya Sutskever 的思考路徑。你也許不會完全同意他的每一個判斷,比如你可能認為 RL 不只是「工程調校」,或者多模態研究裡有真正的原理創新。但即使你不同意他的結論,理解他的推理過程本身就是有價值的。因為理解一個頂尖思想家,最好的方式不是聽他說了什麼,而是看他選擇不說什麼。


← 上一篇:有損壓縮也是一種智慧 📋 回到系列目錄:那份消失的 Email