寫出 AI 聖經的人,為什麼說大型語言模型是死胡同?
強化學習之父理察.薩頓在 2019 年寫下被 AI 圈奉為聖經的〈苦澀的教訓〉,主張算力勝過人類知識。但當 LLM 陣營用這篇文章為 scaling 背書時,薩頓本人卻站出來說:你們搞錯了。這場教主與信徒的分裂,揭示了 AI 發展最深層的路線之爭。


AI 圈最諷刺的一幕
2025 年 9 月,強化學習共同創始人、剛拿到 2024 年圖靈獎的理察.薩頓(Richard Sutton)坐在 Dwarkesh Patel 的 Podcast 裡,說了一句讓整個 AI 產業尷尬的話:大型語言模型是死胡同。
這句話之所以尷尬,是因為過去六年來,矽谷最頂尖的 AI 實驗室把薩頓在 2019 年寫的一篇短文奉為聖經。OpenAI 的研究員用它來為千億美元的算力投資辯護,Google DeepMind 的工程師把它當作判斷研究方向的試金石。Andrej Karpathy 公開說過,這篇文章在前沿 LLM 研究圈已經具有「聖經般的地位」,研究人員會拿它來檢驗每一個新想法是否值得追求。
然後,聖經的作者站出來告訴信徒:你們讀錯了。
這篇被奉為聖經的文章叫做 "The Bitter Lesson",直譯就是「苦澀的教訓」。它只有短短一千多個英文字,沒有數學公式,沒有實驗數據,卻可能是過去十年對 AI 產業方向影響最大的一篇文章。要理解今天 AI 發展最核心的路線之爭,你得先讀懂這篇文章說了什麼,然後理解它的作者為什麼認為大家搞錯了重點。
一位不服氣的強化學習先驅
在談文章之前,得先認識寫文章的人。薩頓不是那種發了一篇論文就出名的學者,他是一個用四十年時間反覆押注同一個信念的人。
1980 年代初期,薩頓還在麻省大學阿默斯特分校讀博士時,和指導教授安德魯.巴托(Andrew Barto)一起研究一個當時多數人不看好的方向:讓機器透過和環境互動、從獎懲回饋中自己學會做決策。這就是後來的強化學習(Reinforcement Learning)。那個年代的主流 AI 研究走的是專家系統路線,研究者費盡心思把人類知識編碼成規則,灌進電腦裡。薩頓和巴托的做法在當時看起來既笨又慢:你不直接告訴機器答案,而是讓它自己去碰壁、去嘗試、去從失敗裡摸索。
這條路走了將近四十年。薩頓發明了時序差分學習(Temporal Difference Learning),這個演算法後來成為強化學習的基石。他和巴托在 1998 年合著的教科書《Reinforcement Learning: An Introduction》被引用超過七萬五千次,至今仍是這個領域的標準教材。他的學生 David Silver 後來主導開發了 AlphaGo,在 2016 年擊敗世界圍棋冠軍。2025 年 3 月,薩頓和巴托共同獲頒圖靈獎,這是計算機科學的最高榮譽。
但在 2019 年,當他寫下〈苦澀的教訓〉時,驅動他的情緒更接近「不服氣」。他回顧了七十年的 AI 發展史,看到同一個模式一再重複:研究者花大量心血把人類知識灌進系統裡,短期內確實有效,但長期來看,那些不靠人類知識、只用算力和通用方法硬幹的系統,每次都贏。每一次。
七十年一再驗證的殘酷模式
薩頓在文章裡舉了幾個讓 AI 研究者「痛苦」的案例。
首先是西洋棋。1960 年代到 1990 年代,一整個世代的計算機科學家投入了數十年心血,試圖把人類棋手的直覺和策略知識編碼進電腦程式裡。他們開發了精巧的評估函數,讓電腦「理解」局勢:哪些棋子位置好、哪種結構有優勢、什麼時候該進攻。這些系統確實不斷進步,但進步的速度始終有限。然後 1997 年,IBM 的「深藍」(Deep Blue)擊敗了世界冠軍卡斯帕洛夫(Garry Kasparov)。深藍靠的是每秒搜尋兩億個棋步的暴力計算能力,跟「理解」西洋棋完全無關。多數專注於模擬人類棋藝的研究者對這個結果感到沮喪,因為深藍贏棋的方式跟人類思考完全不同。
語音辨識的故事更殘酷。1970 年代,研究者嘗試讓電腦「理解」語音的結構,把語言學家對音素、語法、語義的知識手工編碼進系統。卡內基美隆大學的 Harpy 系統能辨識大約一千個單字,但極度脆弱,遇到環境噪音就崩潰。到了 1980 年代,一批統計學家提出了完全不同的方法:用隱藏馬可夫模型(HMM)這種通用的統計工具,讓系統從大量語音資料中自己學習模式。IBM 的 Fred Jelinek 團隊用這個方法造出了能處理兩萬個單字的語音打字機。Jelinek 有一句名言被廣為流傳:「每次我開除一個語言學家,語音辨識的準確率就上升一點。」他不是在嘲笑語言學家。他在描述一個殘酷的事實:人類對語言的精細理解,反而成了系統進步的阻礙。
然後是圍棋。圍棋的棋盤有 19×19 = 361 個交叉點,合法局面的數量比宇宙中的原子還多。幾十年來,所有人都認為電腦不可能靠暴力搜尋贏人類,因為搜尋空間太大了。AI 圍棋程式花了大量心血在開局庫、定式資料庫、形勢判斷的人類知識上。然後 2016 年,DeepMind 的 AlphaGo 擊敗了世界冠軍李世乭。AlphaGo 用的是深度神經網路加上蒙地卡羅樹搜尋,比前幾代圍棋程式少了很多人類知識。更驚人的是 2017 年的 AlphaGo Zero,這個版本完全不使用任何人類棋譜,只透過自我對弈就超越了所有前代版本。人類知識不只是不必要的,它反而拖了系統的後腿。
這就是薩頓所說的「苦澀」:研究者投入畢生心血精心打磨的專業知識,最終被一台不懂任何領域知識、只會用算力蠻幹的機器碾壓。這個教訓之所以苦澀,因為它打擊的是研究者最深層的自尊。你對這個領域的理解、你花二十年累積的直覺,長期來看竟然不如讓機器自己去學。
苦澀教訓的最大驗證:GPT 的崛起
薩頓寫完這篇文章不到兩年,一場他沒有預見到的革命就提供了苦澀教訓最壯觀的驗證。
GPT 系列模型的核心思路簡單到近乎粗暴:拿一個通用的 Transformer 架構,餵它吃下整個網際網路的文字資料,然後不斷把模型做大、訓練資料加多、算力往上堆。不需要語言學知識,不需要世界模型,不需要把人類的推理規則編碼進去。你只需要一個目標:預測下一個字。然後,神奇的事情發生了。當模型大到一定程度,它開始展現出翻譯、寫程式、數學推理、常識問答等等訓練目標裡從未明確要求的能力。
OpenAI 的研究者們開始引用苦澀的教訓,把它當作自己路線的理論基礎:看吧,通用方法加上夠多的算力,就是會贏。Scaling Laws 的發現更是火上加油。研究人員觀察到,只要你按比例增加模型大小、訓練資料量和算力,模型表現會以一種可預測的方式持續提升。這條線還沒有明顯彎折的跡象,彷彿你只要沿著它繼續投資下去,就能通往 AGI。
苦澀的教訓於是成了矽谷最有力的融資話術。每一輪新的資料中心投資、每一個百億美元的算力採購,背後的邏輯都可以追溯到薩頓那篇一千字的短文。你要跟投資人解釋為什麼要花這麼多錢?很簡單:七十年的 AI 歷史告訴我們,算力就是一切。
教主的反擊
但是,薩頓本人從來沒有說過「算力就是一切」。
2025 年 9 月,薩頓在 Dwarkesh Patel 的 Podcast 上做了一件讓 LLM 信徒難堪的事:他明確表示,大型語言模型根本不符合苦澀教訓的精神,反而可能是下一個即將被推翻的範式。
薩頓的邏輯是這樣的。苦澀教訓說的是,通用的學習和搜尋方法會勝過嵌入人類知識的方法。但 LLM 的訓練資料是什麼?是人類寫的文字。數十億頁的網頁、書籍、論文、程式碼,全部都是人類知識的結晶。在薩頓看來,LLM 本質上是在模仿人類,做人類說你該做的事。它沒有在自己學習理解世界,只是在消化人類理解世界後產出的二手紀錄。
薩頓用了一個精確的比喻來區分兩種智慧。LLM 就像一個記憶力驚人的圖書館員:它讀過世界上幾乎所有的書,能快速回答你任何問題,甚至能融會貫通、舉一反三。但它的所有知識都是從書本裡來的,它從來沒有走出過圖書館。真正的智慧應該像一個探險家,走進未知的荒野,踢到石頭會痛、找到水源會高興、被蛇咬了會學著閃避。探險家的知識來自和世界的直接互動,而不是閱讀別人的遊記。
這個區分不只是哲學辯論,它指向一個很實際的技術瓶頸。LLM 依賴人類產出的文字資料來學習,但這些資料是有限的。全世界的高品質文字資料終究會被吃完,到時候你拿什麼繼續訓練?合成資料嗎?那不過是圖書館員在讀自己寫的書,越讀越封閉。
Ilya Sutskever 也覺得風向變了
有趣的是,連 LLM 陣營內部的人也開始鬆動。Ilya Sutskever 是 OpenAI 的共同創辦人,也是最早推動神經網路 scaling 的先驅之一。他比任何人都清楚 LLM 走了多遠。但他在離開 OpenAI、創辦 SSI 之後,公開說了一段耐人尋味的話:「2010 年代是 scaling 的時代,現在我們重新回到了驚奇與發現的時代。」
這句話的潛台詞是:光靠把模型做大、資料加多、算力堆上去,可能已經不夠了。你需要新的想法。
不過,產業並沒有停下來等待新的想法。OpenAI 在 2024 年底推出 o1 模型,2025 年推出 o3 系列,走的是一條被稱為「推理時計算」(test-time compute)的新路線。過去的 scaling 是在訓練階段砸算力:模型越大、訓練越久,表現越好。推理時計算則是在使用階段砸算力:遇到難題時,讓模型花更多時間「思考」,拆解問題、嘗試不同路徑、反覆驗證答案。o3 在一個叫做 ARC-AGI 的推理測試上拿到了 87.5% 的分數,但代價是每道題用了超過一千美元的算力。
這是苦澀教訓的變體:算力依然是核心武器,只是戰場從訓練轉移到了推理。但 Ilya Sutskever 的警告依然成立:報酬遞減是對數級的,你得花十倍的錢才能提升一點點表現。這條路能走多遠?
從圖書館走進荒野
薩頓給出的答案很乾脆:別修了,換一條路。
他在 2025 年的學術演講中提出了一個叫做 OaK 的架構藍圖(Options and Knowledge Architecture)。這個架構的核心思路是讓 AI 像動物一樣,從「經驗之流」中持續學習。系統不斷感知環境、採取行動、接收回饋,然後根據結果調整自己的行為。訓練完就部署、部署完就凍結?不行。AI 應該一輩子都在學。
OaK 的概念建立在薩頓四十年的強化學習功底上。系統會把觀察到的世界轉化為大量可預測的知識片段(薩頓稱之為「通用價值函數」),再把短期動作組合成長期策略(稱為「選項」),搭配學習到的世界模型來做規劃。目標不是做一個只能下圍棋的系統,而是一個能在任何環境中持續適應的通用架構。
但薩頓自己也承認,OaK 目前還做不到。最大的障礙是「災難性遺忘」(catastrophic forgetting):深度神經網路在學習新東西的時候,會把之前學過的東西忘掉。人類不會因為學了日文就忘了英文,但目前的神經網路會。在這個問題被解決之前,真正的持續學習只是一個願景。
這裡有一個微妙的諷刺。薩頓批評 LLM 不算真正的學習,但他自己提出的替代方案目前也做不出來。LLM 陣營至少有能用的產品,OaK 還停留在投影片上。學術願景和工程現實之間,永遠存在這種張力。
這場辯論真正在問的問題
薩頓和 LLM 陣營的分歧,表面上看是技術路線之爭。但往下挖,其實是一個更根本的問題:什麼才算「學習」?
LLM 從人類文字中提取模式,然後用這些模式生成新的文字。你可以說它在「學習」人類的語言和知識,也可以說它只是在做非常高級的複製貼上。薩頓認為真正的學習必須來自與世界的直接互動,就像嬰兒不是靠讀書學會走路的,而是靠一次次跌倒。
但這裡有一個苦澀教訓本身沒有回答的問題:如果未來某個 LLM 的變體真的發展出了持續學習、自主探索的能力呢?如果推理時計算的路線走到盡頭之前,就已經催生出某種「會思考」的系統呢?薩頓的判斷是基於他對 AI 歷史的深刻理解,但歷史不一定會完全重演。
對於我們這些不在前沿實驗室工作的人來說,這場辯論最實際的啟示可能是這樣的:不要把你的職涯押注在任何一個特定的技術範式上。七十年來,AI 的歷史反覆證明一件事,就是那些看起來最不可撼動的主流方法,最終都會被取代。專家系統如此、淺層神經網路如此、手工特徵工程如此。LLM 可能也不例外。
薩頓用四十年的職業生涯押注強化學習,看著它從邊緣走到舞台中央。他寫苦澀教訓的原意從來就不是替 scaling 背書。他想說的是:不要太相信自己當下的理解,因為最終勝出的方法,往往是你現在覺得「太笨」的那個。
這個提醒在 2026 年依然成立。只是這一次,被提醒的對象可能包括那些把苦澀教訓當成 scaling 護身符的人。