AI 怎麼走到今天的:二十八篇文獻帶你走過十五年思想史
這是 AINEXT「AI 經典文獻回顧」系列的入口。28 篇文章、19 個主題、2 本書評,橫跨 2009 到 2024 年。用人話講清楚每篇論文在說什麼、為什麼重要、後來怎麼了。三條閱讀路線,幫你找到自己的起點。


為什麼做這個系列
你可能已經在用 ChatGPT、Copilot、各種 AI 工具。但如果有人問你:AI 是怎麼走到今天這一步的?從「不太行」到「可能取代你的工作」,中間到底發生了什麼?
這個問題不好回答。不是因為太難,而是因為資訊太散。重要的論文躺在學術期刊裡,關鍵的部落格文章被社群媒體的雜訊淹沒,思想演進的脈絡沒有人幫你串起來。
這就是這個系列要做的事。
我們選了 19 篇論文和部落格文章、2 本書,從 2009 年到 2024 年,寫成 28 篇導讀。不是學術摘要,是用人話講清楚:這篇在說什麼、為什麼重要、後來怎麼了。
你不需要有電腦科學背景。這個系列的每一篇,都是寫給「對 AI 有興趣、想搞懂但沒時間讀原文」的人。
為什麼選這些文獻
選文標準有三個。
影響夠大。 每一篇都真的改變了什麼——改變了一個領域的方向、一間公司的策略、或一整代研究者的信仰。AlexNet 開啟了深度學習時代,Transformer 催生了 GPT 和 BERT,Scaling Laws 給了矽谷砸千億美元的數學底氣。
有故事可講。 好的經典文獻不只有技術論點,背後有人、有機構、有路線之爭、有離職和創業。Transformer 八位作者全數離開 Google,各自走上截然不同的路。Stochastic Parrots 的作者被 Google 解僱。OpenAI 超級對齊團隊在兩個月內瓦解。我們不只讀論文,也追蹤作者後來的命運。
今天還在影響。 這不是歷史課。2009 年「數據比演算法重要」的直覺,在大型語言模型身上被完全驗證。2014 年一個瑞典哲學家的末日預言,成了矽谷的信仰。每一篇,我們都站在 2026 年回頭看:當初說對了什麼,說錯了什麼。
三條閱讀路線
28 篇文章不用全讀。根據你最想知道的事,選一條路線開始。
路線 A:AI 怎麼變這麼強的
如果你想快速理解 AI 從「不太行」到「嚇死人」的技術演進,讀這六篇:
- [〈別再調模型了,給我更多數據〉]({{< relref "20090301-unreasonable-effectiveness-of-data.md" >}})(2009)——一切的起點:數據比演算法重要
- [〈一場比賽如何引爆一場革命:AlexNet〉]({{< relref "20120901-alexnet-deep-learning-big-bang.md" >}})(2012)——兩張遊戲顯示卡開啟深度學習時代
- [〈為什麼注意力就夠了:Transformer〉]({{< relref "20170612-attention-is-all-you-need.md" >}})(2017)——催生 GPT 和 BERT 的架構革命
- [〈一篇物理學家寫的論文:Scaling Laws〉]({{< relref "20200123-scaling-laws-neural-language-models.md" >}})(2020)——模型越大、數據越多、表現越好的冪律法則
- [〈你的模型吃不飽:Chinchilla〉]({{< relref "20220329-chinchilla-training-compute-optimal.md" >}})(2022)——整個產業都在浪費算力
- [〈一百五十五頁的火花:Sparks of AGI〉]({{< relref "20230322-sparks-of-agi-gpt4.md" >}})(2023)——微軟宣稱在 GPT-4 身上看見了 AGI
讀完這六篇,你會理解 AI 能力爆發的底層邏輯——以及為什麼砸錢真的有用。
路線 B:AI 安全是真議題還是炒作
如果你想搞清楚「AI 會不會毀滅人類」這場辯論的來龍去脈,讀這七篇:
- [〈一個瑞典哲學家的預言:Superintelligence 書評〉]({{< relref "20140703-superintelligence-paths-dangers-strategies.md" >}})(2014)——十年後成了矽谷的信仰
- [〈所有人都在搶,沒有人會贏:Moloch〉]({{< relref "20140730-meditations-on-moloch.md" >}})(2014)——用古代惡神解釋 AI 軍備競賽
- [〈AI 安全變成工程問題:Concrete Problems〉]({{< relref "20160621-concrete-problems-ai-safety.md" >}})(2016)——從末日預言走向可驗證的研究問題
- [〈當鸚鵡學會說話:Stochastic Parrots〉]({{< relref "20210301-stochastic-parrots-dangers.md" >}})(2021)——讓作者被 Google 解僱的論文
- [〈十六條原則:Constitutional AI〉]({{< relref "20221215-constitutional-ai-harmlessness.md" >}})(2022)——用 AI 取代五萬個人類判斷
- [〈165 頁的算術題:Situational Awareness〉]({{< relref "20240604-situational-awareness-agi-timeline.md" >}})(2024)——22 歲前 OpenAI 研究員的 AGI 預言
- [〈哲學家提出了問題,工程師帶來了答案:Human Compatible 書評〉]({{< relref "20191008-human-compatible-ai-control.md" >}})(2019)——AI 教科書作者的替代方案
讀完這七篇,你會對 AI 安全的辯論有自己的判斷——而不只是轉述別人的恐懼或樂觀。
路線 C:AI 對我的工作意味著什麼
如果你更在意 AI 如何改變軟體開發、產品設計和日常工作,讀這六篇:
- [〈當程式碼開始自己寫自己:Software 2.0〉]({{< relref "20171112-software-2-0.md" >}})(2017)——Karpathy 的程式設計典範轉移宣言
- [〈NLP 終於等到它的 ImageNet 時刻〉]({{< relref "20180708-nlp-imagenet-moment.md" >}})(2018)——預訓練模型如何改變自然語言處理
- [〈寫出 AI 聖經的人,為什麼說大型語言模型是死胡同?〉]({{< relref "20260206-the-bitter-lesson.md" >}})(2019)——算力 vs. 人類知識的永恆之爭
- [〈四十個人的判斷力:InstructGPT〉]({{< relref "20220304-instructgpt-rlhf-alignment.md" >}})(2022)——RLHF 如何教會 AI 聽人話
- [〈「請一步一步想」:Chain-of-Thought〉]({{< relref "20220128-chain-of-thought-prompting.md" >}})(2022)——五個字解鎖大型語言模型的推理能力
- [〈量變何時成為質變:Emergent Abilities〉]({{< relref "20220615-emergent-abilities-llm.md" >}})(2022)——模型規模帶來的驚喜,以及質疑
讀完這六篇,你會理解 AI 能力的邊界在哪裡——以及為什麼那條邊界一直在移動。
三條路線幾乎不重疊。讀完一條想繼續,隨時跳到另一條。每篇文章裡都有交叉引用,會告訴你接下來可以讀什麼。
完整目錄
以下是全系列 28 篇文章,按時間排列。
2009
- [〈別再調模型了,給我更多數據〉]({{< relref "20090301-unreasonable-effectiveness-of-data.md" >}}) — 三個 Google 研究者在深度學習革命前夕,已經知道答案
2012
- [〈一場比賽如何引爆一場革命:AlexNet(上)〉]({{< relref "20120901-alexnet-deep-learning-big-bang.md" >}}) — 深度學習的大霹靂
- [〈同一篇論文,三條截然不同的路:AlexNet(下)〉]({{< relref "20120901-alexnet-three-paths.md" >}}) — 三位作者的命運分岔
2014
- [〈一個瑞典哲學家的預言:Superintelligence 書評〉]({{< relref "20140703-superintelligence-paths-dangers-strategies.md" >}}) — 十年後成了矽谷的信仰
- [〈所有人都在搶,沒有人會贏:Moloch〉]({{< relref "20140730-meditations-on-moloch.md" >}}) — 用古代惡神預言 AI 的終極困境
2015
- [〈火柴人、馬斯克和世界末日:Wait But Why〉]({{< relref "20150122-wait-but-why-ai-revolution.md" >}}) — 一篇部落格如何把 AI 風險變成全民議題
2016
- [〈AI 安全變成工程問題:Concrete Problems〉]({{< relref "20160621-concrete-problems-ai-safety.md" >}}) — 把末日預言變成可驗證的研究問題
2017
- [〈為什麼注意力就夠了:Transformer(上)〉]({{< relref "20170612-attention-is-all-you-need.md" >}}) — 一篇改變一切的論文
- [〈一篇論文,八條路:Transformer(下)〉]({{< relref "20170612-transformer-eight-paths.md" >}}) — 八位發明者的分岔命運
- [〈當程式碼開始自己寫自己:Software 2.0〉]({{< relref "20171112-software-2-0.md" >}}) — Karpathy 的程式設計典範轉移宣言
2018
- [〈NLP 終於等到它的 ImageNet 時刻〉]({{< relref "20180708-nlp-imagenet-moment.md" >}}) — 預訓練模型同時爆發,改變了 NLP
2019
- [〈寫出 AI 聖經的人,為什麼說大型語言模型是死胡同?〉]({{< relref "20260206-the-bitter-lesson.md" >}}) — 算力 vs. 人類知識的永恆之爭
- [〈哲學家提出了問題,工程師帶來了答案:Human Compatible 書評〉]({{< relref "20191008-human-compatible-ai-control.md" >}}) — AI 教科書作者正面回應控制問題
2020
- [〈一篇物理學家寫的論文:Scaling Laws(上)〉]({{< relref "20200123-scaling-laws-neural-language-models.md" >}}) — 給矽谷砸千億美元的數學底氣
- [〈一篇論文,拆出了 Anthropic:Scaling Laws(下)〉]({{< relref "20200123-scaling-laws-people-and-impact.md" >}}) — 背後的人與路線之爭
- [〈從數據到信仰:The Scaling Hypothesis〉]({{< relref "20200528-the-scaling-hypothesis.md" >}}) — 「規模假說」如何成為 AI 時代的中心教條
2021
- [〈當鸚鵡學會說話:Stochastic Parrots(上)〉]({{< relref "20210301-stochastic-parrots-dangers.md" >}}) — 讓兩位作者丟掉工作的論文
- [〈被 Google 解僱之後:Stochastic Parrots(下)〉]({{< relref "20210301-stochastic-parrots-people-and-impact.md" >}}) — AI 倫理之爭
2022
- [〈「請一步一步想」:Chain-of-Thought Prompting〉]({{< relref "20220128-chain-of-thought-prompting.md" >}}) — 五個字解鎖推理能力
- [〈四十個人的判斷力:InstructGPT(上)〉]({{< relref "20220304-instructgpt-rlhf-alignment.md" >}}) — RLHF 如何教會 AI 聽人話
- [〈開創 RLHF 的人,後來都離開了 OpenAI:InstructGPT(下)〉]({{< relref "20220304-instructgpt-people-and-impact.md" >}}) — RLHF 創始者們的分散
- [〈你的模型吃不飽:Chinchilla〉]({{< relref "20220329-chinchilla-training-compute-optimal.md" >}}) — 整個產業都在浪費算力
- [〈量變何時成為質變:Emergent Abilities〉]({{< relref "20220615-emergent-abilities-llm.md" >}}) — 繼續砸錢的理由,以及為什麼有人說那是海市蜃樓
- [〈十六條原則:Constitutional AI(上)〉]({{< relref "20221215-constitutional-ai-harmlessness.md" >}}) — 用 AI 取代五萬個人類判斷
- [〈離開 OpenAI 的人,寫了一部 AI 憲法:Constitutional AI(下)〉]({{< relref "20221215-constitutional-ai-people-and-impact.md" >}}) — Anthropic 的技術宣言
2023
- [〈一百五十五頁的火花:Sparks of AGI〉]({{< relref "20230322-sparks-of-agi-gpt4.md" >}}) — GPT-4 發布八天後,微軟宣稱看見了 AGI
2024
- [〈165 頁的算術題:Situational Awareness(上)〉]({{< relref "20240604-situational-awareness-agi-timeline.md" >}}) — 從 GPT-4 到超級智慧要幾個數量級
- [〈被 OpenAI 解僱的人,募了十五億美元:Situational Awareness(下)〉]({{< relref "20240604-situational-awareness-people-and-impact.md" >}}) — 超級對齊團隊的瓦解
怎麼讀這個系列
最後說明一下文章的長度和結構。
這個系列的文獻依素材厚度分成三種格式:
上下篇。 內容最豐富的七組文獻,各拆成兩篇。上篇是論文導讀——技術觀點、核心論證、歷史脈絡。下篇是人物與影響——作者的故事、後續發展、路線之爭。如果時間有限,讀上篇就能理解論文在說什麼;下篇是延伸閱讀,講的是「寫這篇論文的人後來怎麼了」。
長文。 一篇讀完,約三千到四千字。有 Concrete Problems、Chain-of-Thought、Chinchilla、Emergent Abilities、Sparks of AGI,還有 Superintelligence 和 Human Compatible 兩篇書評。適合有點時間的通勤或午休。
中文。 篇幅最短,約兩千到三千字。十分鐘可以讀完。包括 Unreasonable Effectiveness of Data、Moloch、Wait But Why、Software 2.0、NLP's ImageNet Moment、Bitter Lesson、Scaling Hypothesis。
不管從哪一篇開始,每篇文章都是獨立可讀的。但如果你按路線或時間序讀下去,會看見思想之間的對話、衝突,和意想不到的交會。
歡迎開始。