那份消失的 Email:Ilya Sutskever 閱讀清單的傳奇故事

OpenAI 共同創辦人 Ilya Sutskever 曾告訴遊戲傳奇 John Carmack:讀完這些,你就懂了 90% 的 AI。這份只有 27 項的閱讀清單,原始 email 卻因 Meta 的自動刪除政策消失了。從一封私人信件到 GitHub 上千顆星、再到 Manning 出版專書,這是一份傳奇閱讀清單的起源故事。

那份消失的 Email:Ilya Sutskever 閱讀清單的傳奇故事

本文為「Ilya Sutskever 推薦讀什麼」系列導論(篇 0)。本系列帶你走一遍 OpenAI 共同創辦人 Ilya Sutskever 的傳奇閱讀清單,他曾告訴 John Carmack:「讀完這些,你就懂了 90% 的 AI。」


一場不太尋常的招募

約 2020 年,OpenAI 執行長阿特曼(Sam Altman)在 Y Combinator 舉辦的「YC 120」會議上,做了一件不太尋常的事。這場會議固定邀請 120 位來自不同領域的人物,地點在科羅拉多州,週末舉辦,氣氛介於學術研討和露營之間。阿特曼在那裡找上了約翰.卡馬克(John Carmack)。

卡馬克是什麼人?如果你玩過《Doom》或《Quake》,你已經見識過他的作品。他是 id Software 的共同創辦人,1990 年代以一己之力推動了 3D 遊戲引擎的技術革命。後來他加入 Oculus VR 擔任技術長,協助催生了現代虛擬實境。在程式設計師的圈子裡,卡馬克是接近神話等級的存在,以極度深入的技術鑽研和驚人的學習速度聞名。

阿特曼帶了兩個人去說服卡馬克加入 OpenAI:當時的總裁布洛克曼(Greg Brockman)和首席科學家 Ilya Sutskever。這場招募最終沒有成功,卡馬克沒有加入 OpenAI。但那次會面留下了另一個東西。

卡馬克問了 Sutskever 一個問題:「我該從哪裡開始學 AI?」

一封改變一切的 Email

Sutskever 回了一封 email。

這封信裡沒有線上課程推薦,沒有「先從 Python 開始」的入門建議。根據卡馬克本人的說法,Sutskever 列了大約 40 篇論文和資源,然後寫了一句話:「如果你真正學會了這些,你就會知道今天 90% 重要的東西。」

注意那個「真正學會」。不是「讀過」,不是「瀏覽」,是「learn」。

卡馬克做了卡馬克會做的事。他把每一篇都讀了。在 2023 年 2 月接受 Dallas Innovates 的訪談時,他回憶這段過程:「我把這些東西全部啃完了。」對卡馬克來說,這不是什麼驚人的事。這個人曾經為了搞懂火箭科學而自學航太工程,然後真的造了火箭。讀 40 篇 AI 論文對他來說,大概跟我們讀 40 篇部落格文章差不多。

但這封 email 的意義,遠不只是幫助了一位遊戲傳奇入門 AI。

Sutskever 是 OpenAI 的共同創辦人,是辛頓(Geoffrey Hinton)的學生,是 AlexNet 的三位作者之一,是讓深度學習從實驗室走進主流的關鍵推手。當這樣一個人說「這些就是 90% 重要的東西」,他不只是在開書單。他是在揭露自己的知識地圖,告訴你他腦中的 AI 世界長什麼樣子。

一封消失的信

然後故事出了一個岔。

卡馬克收到 Sutskever 那封 email 的時候,他還在 Meta 工作(Meta 在 2014 年收購了 Oculus VR,卡馬克當時是顧問技術長)。他的公司信箱是 Meta 的。而 Meta 有一條許多員工不太注意的政策:企業信箱的郵件在兩年後會自動刪除。

2022 年底,卡馬克正式離開 Meta,創辦了自己的 AGI 新創公司 Keen Technologies。等到有人問起那份清單的時候,原始的 email 已經不在了。卡馬克後來在 Hacker News 上提到,他有一個活頁夾,印了很多論文,但不是全部。那封 email 的完整內容,很可能永遠消失了。

2023 年 2 月,卡馬克在 X(Twitter)上公開表示,他原本期待 Sutskever 會自己公布這份清單。他寫道,一份來自領袖人物的權威參考清單,會被很多人感激。但 Sutskever 始終沒有公開。

社群重建與爆紅

2024 年 5 月 7 日,X 平台上一位叫 Keshav(@keshavchan)的人貼出了一份重建版本。這份清單是從多個來源拼湊而成的,包括卡馬克零散提到的論文、Sutskever 在其他場合推薦過的資源,以及 AI 社群根據 Sutskever 的研究方向做出的合理推測。

這篇貼文迅速擴散,累積超過 87 萬次瀏覽。幾天後的 5 月 14 日,GitHub 上出現了整理版的 repo,到今天已經累積超過 1,400 顆星。多個版本在網路上流傳,dzyim、Justmalhar、AnupBhat30 等人都建了自己的整理。

最終被廣泛接受的版本包含 27 個項目。根據卡馬克本人的說法,原始清單約有 40 篇,所以這份重建版可能遺漏了十多項。但即使不完整,光是這 27 項就已經足夠驚人。

為什麼驚人?因為這份清單的組成跟多數人預期的完全不同。

最大的意外:不是深度學習

如果你讓一百位 AI 從業者猜 Sutskever 的推薦清單裡比重最高的是什麼,大概九十個人會回答「深度學習架構論文」。Transformer、GPT、BERT、各種模型的改進版。

實際上,數量最多的是 RNN 和序列建模相關的論文,佔了 9 項。這不算太意外,畢竟 Sutskever 在 RNN 時代做了大量研究。真正讓人意外的是第二大類:資訊理論與複雜性。

這個類別有五項:一本 500 頁的 Kolmogorov 複雜度教科書、一份 MDL(最小描述長度)原理教程、Scott Aaronson 關於複雜性動力學的部落格文章和正式論文,以及辛頓 1993 年那篇用描述長度原理簡化神經網路的論文。另外還有一項密切相關的:DeepMind 共同創辦人 Shane Legg 2008 年的博士論文,雖然被歸在「其他」類別,但核心主題同樣是用資訊理論定義智慧。

五項正式歸類加一項主題相關,在只有 27 項的清單中佔了超過五分之一,跟 CNN 類(同樣五項)一樣多。這些項目說的都是同一件事:壓縮就是理解,理解就是智慧。

這透露了 Sutskever 跟多數 AI 研究者很不一樣的地方。他當然關心「怎麼讓模型更強」,但他更在乎一個根本問題:智慧到底是什麼?他有一套回答這個問題的理論框架,根基不在深度學習,在資訊理論。他相信,預測下一個 token 本質上就是壓縮,而壓縮的能力等同於理解的深度。一個能完美預測文字的模型,就是一個完美的文字壓縮器,也就是一個真正「理解」語言的系統。

這份清單是他用 27 項精選資源,畫出的一張通往這個信念的地圖。

一本書的誕生

這份清單的影響力沒有停在 GitHub。Manning Publications 的 Richard Heimann 直接以它為藍本寫了一本書:《Sutskever's List: Foundational Ideas of Modern AI》。這本書在 2025 年 9 月進入 MEAP(Manning 的早期存取計畫),預計 2026 年春季正式出版。

Heimann 的背景很有意思。他是網路安全公司 Cybraics 的首席 AI 長,曾在 DARPA 計畫中工作,在五角大廈擔任 AI 策略顧問,也在喬治梅森大學教過計算社會科學。他不是一位純學術界的人,而是一位在實務中使用 AI、同時關心理論基礎的人。書名直接致敬了這份清單。Heimann 顯然認為,光追最新的模型發布不夠,你需要回到基礎,回到 Sutskever 認為「90% 重要的東西」。

27 項清單全貌

以下是社群重建的 27 項完整清單,依五大主題分類:

Transformer 與注意力機制(3 項)

# 項目 作者 年份 類型
1 The Annotated Transformer Sasha Rush 等 2018 教學
14 Attention Is All You Need ★ Vaswani 等 2017 論文
15 Neural Machine Translation by Jointly Learning to Align and Translate Bahdanau 等 2014 論文

RNN / LSTM / 序列建模(9 項)

# 項目 作者 年份 類型
3 The Unreasonable Effectiveness of Recurrent Neural Networks Karpathy 2015 部落格
4 Understanding LSTM Networks Olah 2015 部落格
5 Recurrent Neural Network Regularization Zaremba, Sutskever 等 2014 論文
7 Pointer Networks Vinyals 等 2015 論文
9 Order Matters: Sequence to Sequence for Sets Vinyals 等 2015 論文
17 A Simple Neural Network Module for Relational Reasoning Santoro 等 2017 論文
19 Relational Recurrent Neural Networks Santoro 等 2018 論文
21 Neural Turing Machines Graves 等 2014 論文
22 Deep Speech 2 Amodei 等 2015 論文

CNN / 影像辨識(5 項)

# 項目 作者 年份 類型
8 ImageNet Classification with Deep CNNs (AlexNet) ★ Krizhevsky, Sutskever, Hinton 2012 論文
11 Deep Residual Learning (ResNet) He 等 2015 論文
16 Identity Mappings in Deep Residual Networks He 等 2016 論文
12 Multi-Scale Context Aggregation by Dilated Convolutions Yu, Koltun 2015 論文
27 CS231n: CNNs for Visual Recognition Stanford 持續更新 課程

資訊理論與複雜性(5 項)

# 項目 作者 年份 類型
2 The First Law of Complexodynamics Aaronson 2011 部落格
6 Keeping Neural Networks Simple Hinton, van Camp 1993 論文
20 Coffee Automaton: Rise and Fall of Complexity Aaronson 等 2014 論文
24 A Tutorial Introduction to the MDL Principle Grunwald 2004 教程
26 Kolmogorov Complexity and Algorithmic Randomness Shen 等 2017 教科書

其他(5 項)

# 項目 作者 年份 類型
10 GPipe: Micro-Batch Pipeline Parallelism Huang 等 2018 論文
13 Neural Message Passing for Quantum Chemistry Gilmer 等 2017 論文
18 Variational Lossy Autoencoder Chen, Sutskever 等 2017 論文
23 Scaling Laws for Neural Language Models ★ Kaplan 等 2020 論文
25 Machine Super Intelligence Shane Legg 2008 博士論文

★ 標記表示 AINEXT「AI 經典文獻回顧」系列已有專文,本系列將從 Sutskever 的視角補充新的解讀角度。

這份清單橫跨 1993 年到 2020 年,共 27 年。如果你把所有內容加起來,大約等於一千頁書的份量。Sutskever 本人參與撰寫了其中三項(AlexNet、RNN Regularization、Variational Lossy Autoencoder),出現最多次的作者是 Oriol Vinyals(四項),而機構分布以 Google Brain 和 DeepMind 為主。

接下來的旅程

這個系列共 12 篇(含本篇),會帶你走一遍 Sutskever 的知識地圖。每篇文章都會回答五件事:Sutskever 為什麼選這篇?它在說什麼?它解決了什麼問題?跟「壓縮即智慧」有什麼關聯?對今天的 AI 有什麼影響?

理論層:智慧的本質

工程層:從看見到理解

規模層與收束


Sutskever 在 2024 年離開 OpenAI,創辦了 SSI(Safe Superintelligence Inc.),一家只專注於安全超級智慧的公司。他沒有公開解釋過為什麼選這 27 項。但如果你跟著這個系列一路讀下來,你會開始理解他的思路。他不是在列「AI 里程碑」,他是在畫一張地圖,從資訊的本質出發,經過壓縮、複雜性、記憶、注意力、規模,最終指向一個問題:什麼是智慧?


→ 下一篇:什麼是 Kolmogorov 複雜度?為什麼它是理解 AI 的鑰匙