那份消失的 Email:Ilya Sutskever 閱讀清單的傳奇故事
OpenAI 共同創辦人 Ilya Sutskever 曾告訴遊戲傳奇 John Carmack:讀完這些,你就懂了 90% 的 AI。這份只有 27 項的閱讀清單,原始 email 卻因 Meta 的自動刪除政策消失了。從一封私人信件到 GitHub 上千顆星、再到 Manning 出版專書,這是一份傳奇閱讀清單的起源故事。

本文為「Ilya Sutskever 推薦讀什麼」系列導論(篇 0)。本系列帶你走一遍 OpenAI 共同創辦人 Ilya Sutskever 的傳奇閱讀清單,他曾告訴 John Carmack:「讀完這些,你就懂了 90% 的 AI。」
一場不太尋常的招募
約 2020 年,OpenAI 執行長阿特曼(Sam Altman)在 Y Combinator 舉辦的「YC 120」會議上,做了一件不太尋常的事。這場會議固定邀請 120 位來自不同領域的人物,地點在科羅拉多州,週末舉辦,氣氛介於學術研討和露營之間。阿特曼在那裡找上了約翰.卡馬克(John Carmack)。
卡馬克是什麼人?如果你玩過《Doom》或《Quake》,你已經見識過他的作品。他是 id Software 的共同創辦人,1990 年代以一己之力推動了 3D 遊戲引擎的技術革命。後來他加入 Oculus VR 擔任技術長,協助催生了現代虛擬實境。在程式設計師的圈子裡,卡馬克是接近神話等級的存在,以極度深入的技術鑽研和驚人的學習速度聞名。
阿特曼帶了兩個人去說服卡馬克加入 OpenAI:當時的總裁布洛克曼(Greg Brockman)和首席科學家 Ilya Sutskever。這場招募最終沒有成功,卡馬克沒有加入 OpenAI。但那次會面留下了另一個東西。
卡馬克問了 Sutskever 一個問題:「我該從哪裡開始學 AI?」
一封改變一切的 Email
Sutskever 回了一封 email。
這封信裡沒有線上課程推薦,沒有「先從 Python 開始」的入門建議。根據卡馬克本人的說法,Sutskever 列了大約 40 篇論文和資源,然後寫了一句話:「如果你真正學會了這些,你就會知道今天 90% 重要的東西。」
注意那個「真正學會」。不是「讀過」,不是「瀏覽」,是「learn」。
卡馬克做了卡馬克會做的事。他把每一篇都讀了。在 2023 年 2 月接受 Dallas Innovates 的訪談時,他回憶這段過程:「我把這些東西全部啃完了。」對卡馬克來說,這不是什麼驚人的事。這個人曾經為了搞懂火箭科學而自學航太工程,然後真的造了火箭。讀 40 篇 AI 論文對他來說,大概跟我們讀 40 篇部落格文章差不多。
但這封 email 的意義,遠不只是幫助了一位遊戲傳奇入門 AI。
Sutskever 是 OpenAI 的共同創辦人,是辛頓(Geoffrey Hinton)的學生,是 AlexNet 的三位作者之一,是讓深度學習從實驗室走進主流的關鍵推手。當這樣一個人說「這些就是 90% 重要的東西」,他不只是在開書單。他是在揭露自己的知識地圖,告訴你他腦中的 AI 世界長什麼樣子。
一封消失的信
然後故事出了一個岔。
卡馬克收到 Sutskever 那封 email 的時候,他還在 Meta 工作(Meta 在 2014 年收購了 Oculus VR,卡馬克當時是顧問技術長)。他的公司信箱是 Meta 的。而 Meta 有一條許多員工不太注意的政策:企業信箱的郵件在兩年後會自動刪除。
2022 年底,卡馬克正式離開 Meta,創辦了自己的 AGI 新創公司 Keen Technologies。等到有人問起那份清單的時候,原始的 email 已經不在了。卡馬克後來在 Hacker News 上提到,他有一個活頁夾,印了很多論文,但不是全部。那封 email 的完整內容,很可能永遠消失了。
2023 年 2 月,卡馬克在 X(Twitter)上公開表示,他原本期待 Sutskever 會自己公布這份清單。他寫道,一份來自領袖人物的權威參考清單,會被很多人感激。但 Sutskever 始終沒有公開。
社群重建與爆紅
2024 年 5 月 7 日,X 平台上一位叫 Keshav(@keshavchan)的人貼出了一份重建版本。這份清單是從多個來源拼湊而成的,包括卡馬克零散提到的論文、Sutskever 在其他場合推薦過的資源,以及 AI 社群根據 Sutskever 的研究方向做出的合理推測。
這篇貼文迅速擴散,累積超過 87 萬次瀏覽。幾天後的 5 月 14 日,GitHub 上出現了整理版的 repo,到今天已經累積超過 1,400 顆星。多個版本在網路上流傳,dzyim、Justmalhar、AnupBhat30 等人都建了自己的整理。
最終被廣泛接受的版本包含 27 個項目。根據卡馬克本人的說法,原始清單約有 40 篇,所以這份重建版可能遺漏了十多項。但即使不完整,光是這 27 項就已經足夠驚人。
為什麼驚人?因為這份清單的組成跟多數人預期的完全不同。
最大的意外:不是深度學習
如果你讓一百位 AI 從業者猜 Sutskever 的推薦清單裡比重最高的是什麼,大概九十個人會回答「深度學習架構論文」。Transformer、GPT、BERT、各種模型的改進版。
實際上,數量最多的是 RNN 和序列建模相關的論文,佔了 9 項。這不算太意外,畢竟 Sutskever 在 RNN 時代做了大量研究。真正讓人意外的是第二大類:資訊理論與複雜性。
這個類別有五項:一本 500 頁的 Kolmogorov 複雜度教科書、一份 MDL(最小描述長度)原理教程、Scott Aaronson 關於複雜性動力學的部落格文章和正式論文,以及辛頓 1993 年那篇用描述長度原理簡化神經網路的論文。另外還有一項密切相關的:DeepMind 共同創辦人 Shane Legg 2008 年的博士論文,雖然被歸在「其他」類別,但核心主題同樣是用資訊理論定義智慧。
五項正式歸類加一項主題相關,在只有 27 項的清單中佔了超過五分之一,跟 CNN 類(同樣五項)一樣多。這些項目說的都是同一件事:壓縮就是理解,理解就是智慧。
這透露了 Sutskever 跟多數 AI 研究者很不一樣的地方。他當然關心「怎麼讓模型更強」,但他更在乎一個根本問題:智慧到底是什麼?他有一套回答這個問題的理論框架,根基不在深度學習,在資訊理論。他相信,預測下一個 token 本質上就是壓縮,而壓縮的能力等同於理解的深度。一個能完美預測文字的模型,就是一個完美的文字壓縮器,也就是一個真正「理解」語言的系統。
這份清單是他用 27 項精選資源,畫出的一張通往這個信念的地圖。
一本書的誕生
這份清單的影響力沒有停在 GitHub。Manning Publications 的 Richard Heimann 直接以它為藍本寫了一本書:《Sutskever's List: Foundational Ideas of Modern AI》。這本書在 2025 年 9 月進入 MEAP(Manning 的早期存取計畫),預計 2026 年春季正式出版。
Heimann 的背景很有意思。他是網路安全公司 Cybraics 的首席 AI 長,曾在 DARPA 計畫中工作,在五角大廈擔任 AI 策略顧問,也在喬治梅森大學教過計算社會科學。他不是一位純學術界的人,而是一位在實務中使用 AI、同時關心理論基礎的人。書名直接致敬了這份清單。Heimann 顯然認為,光追最新的模型發布不夠,你需要回到基礎,回到 Sutskever 認為「90% 重要的東西」。
27 項清單全貌
以下是社群重建的 27 項完整清單,依五大主題分類:
Transformer 與注意力機制(3 項)
| # | 項目 | 作者 | 年份 | 類型 |
|---|---|---|---|---|
| 1 | The Annotated Transformer | Sasha Rush 等 | 2018 | 教學 |
| 14 | Attention Is All You Need ★ | Vaswani 等 | 2017 | 論文 |
| 15 | Neural Machine Translation by Jointly Learning to Align and Translate | Bahdanau 等 | 2014 | 論文 |
RNN / LSTM / 序列建模(9 項)
| # | 項目 | 作者 | 年份 | 類型 |
|---|---|---|---|---|
| 3 | The Unreasonable Effectiveness of Recurrent Neural Networks | Karpathy | 2015 | 部落格 |
| 4 | Understanding LSTM Networks | Olah | 2015 | 部落格 |
| 5 | Recurrent Neural Network Regularization | Zaremba, Sutskever 等 | 2014 | 論文 |
| 7 | Pointer Networks | Vinyals 等 | 2015 | 論文 |
| 9 | Order Matters: Sequence to Sequence for Sets | Vinyals 等 | 2015 | 論文 |
| 17 | A Simple Neural Network Module for Relational Reasoning | Santoro 等 | 2017 | 論文 |
| 19 | Relational Recurrent Neural Networks | Santoro 等 | 2018 | 論文 |
| 21 | Neural Turing Machines | Graves 等 | 2014 | 論文 |
| 22 | Deep Speech 2 | Amodei 等 | 2015 | 論文 |
CNN / 影像辨識(5 項)
| # | 項目 | 作者 | 年份 | 類型 |
|---|---|---|---|---|
| 8 | ImageNet Classification with Deep CNNs (AlexNet) ★ | Krizhevsky, Sutskever, Hinton | 2012 | 論文 |
| 11 | Deep Residual Learning (ResNet) | He 等 | 2015 | 論文 |
| 16 | Identity Mappings in Deep Residual Networks | He 等 | 2016 | 論文 |
| 12 | Multi-Scale Context Aggregation by Dilated Convolutions | Yu, Koltun | 2015 | 論文 |
| 27 | CS231n: CNNs for Visual Recognition | Stanford | 持續更新 | 課程 |
資訊理論與複雜性(5 項)
| # | 項目 | 作者 | 年份 | 類型 |
|---|---|---|---|---|
| 2 | The First Law of Complexodynamics | Aaronson | 2011 | 部落格 |
| 6 | Keeping Neural Networks Simple | Hinton, van Camp | 1993 | 論文 |
| 20 | Coffee Automaton: Rise and Fall of Complexity | Aaronson 等 | 2014 | 論文 |
| 24 | A Tutorial Introduction to the MDL Principle | Grunwald | 2004 | 教程 |
| 26 | Kolmogorov Complexity and Algorithmic Randomness | Shen 等 | 2017 | 教科書 |
其他(5 項)
| # | 項目 | 作者 | 年份 | 類型 |
|---|---|---|---|---|
| 10 | GPipe: Micro-Batch Pipeline Parallelism | Huang 等 | 2018 | 論文 |
| 13 | Neural Message Passing for Quantum Chemistry | Gilmer 等 | 2017 | 論文 |
| 18 | Variational Lossy Autoencoder | Chen, Sutskever 等 | 2017 | 論文 |
| 23 | Scaling Laws for Neural Language Models ★ | Kaplan 等 | 2020 | 論文 |
| 25 | Machine Super Intelligence | Shane Legg | 2008 | 博士論文 |
★ 標記表示 AINEXT「AI 經典文獻回顧」系列已有專文,本系列將從 Sutskever 的視角補充新的解讀角度。
這份清單橫跨 1993 年到 2020 年,共 27 年。如果你把所有內容加起來,大約等於一千頁書的份量。Sutskever 本人參與撰寫了其中三項(AlexNet、RNN Regularization、Variational Lossy Autoencoder),出現最多次的作者是 Oriol Vinyals(四項),而機構分布以 Google Brain 和 DeepMind 為主。
接下來的旅程
這個系列共 12 篇(含本篇),會帶你走一遍 Sutskever 的知識地圖。每篇文章都會回答五件事:Sutskever 為什麼選這篇?它在說什麼?它解決了什麼問題?跟「壓縮即智慧」有什麼關聯?對今天的 AI 有什麼影響?
理論層:智慧的本質
- 篇 1|什麼是 Kolmogorov 複雜度?為什麼它是理解 AI 的鑰匙——壓縮即理解的理論起點
- 篇 2|複雜性從哪裡來,又往哪裡去?——Aaronson 的咖啡思想實驗與辛頓的 MDL 原理
- 篇 3|一篇博士論文如何定義「智慧」——Shane Legg 與通往 AGI 的數學之路
工程層:從看見到理解
- 篇 4|看見的革命——CNN 如何教會機器理解影像——AlexNet、ResNet 與視覺的深度學習
- 篇 5|RNN 的魅力與極限——當機器試圖記住過去——LSTM、序列建模與記憶機制
- 篇 6|注意力的誕生:從 Bahdanau 到 Pointer Networks——注意力機制如何為 Transformer 鋪路
- 篇 7|Attention Is All You Need:一篇論文如何改變一切——Transformer 把注意力從配角變成主角
- 篇 8|記憶、推理、關係理解——Sutskever 清單指向 AGI 的三根柱子——Neural Turing Machine 與關係推理
規模層與收束
- 篇 9|規模的力量——從 GPipe 到 Scaling Laws——清單中最有商業影響力的論文
- 篇 10|有損壓縮也是一種智慧——清單唯一的生成模型——Variational Lossy Autoencoder 與壓縮的深層連結
- 篇 11|清單上沒有的東西——Sutskever 的沉默比推薦更有意義——終篇:缺席的論文透露了什麼
Sutskever 在 2024 年離開 OpenAI,創辦了 SSI(Safe Superintelligence Inc.),一家只專注於安全超級智慧的公司。他沒有公開解釋過為什麼選這 27 項。但如果你跟著這個系列一路讀下來,你會開始理解他的思路。他不是在列「AI 里程碑」,他是在畫一張地圖,從資訊的本質出發,經過壓縮、複雜性、記憶、注意力、規模,最終指向一個問題:什麼是智慧?