AI 技術前沿

AlphaGo 之父與強化學習教父聯手宣告：AI 正式進入「經驗時代」

DeepMind 前首席科學家 David Silver 與強化學習教父 Richard Sutton 聯合發表論文，主張 AI 發展已從「人類資料時代」邁入「經驗時代」。他們認為，要實現真正的超人智慧，AI 必須學會從自身與環境的互動中學習——就像人類學騎腳踏車一樣。

2026 年 2 月 5 日 · 來源： DeepMind / MIT Press

本文整理自 David Silver 與 Richard Sutton 於 2025 年 4 月發表的論文《Welcome to the Era of Experience》，該論文即將收錄於 MIT Press 出版的《Designing an Intelligence》一書。

如果你關注 AI 發展，這兩個名字你必須記住：David Silver 和 Richard Sutton。

他們最近聯手發表了一篇論文，宣告 AI 正式進入新時代。這不是普通的學術論文——這是兩位領域最重要人物的聯合宣言，份量相當於賈伯斯和沃茲尼克一起寫文章談個人電腦的未來。

這兩位是誰？為什麼他們說的話很重要？

先介紹 David Silver。

2016 年，Google DeepMind 的 AlphaGo 擊敗世界圍棋冠軍李世乭，震驚全球。Silver 就是 AlphaGo 計畫的主導者。後來他又帶領團隊開發出 AlphaZero——一個從零開始自學，在 24 小時內就超越所有人類棋譜知識的 AI 系統。

他在 DeepMind 待了超過十年，是強化學習（Reinforcement Learning）研究的領軍人物。2026 年 1 月，他離開 DeepMind，創立了自己的新公司 Ineffable Intelligence。這篇論文，正是他新願景的理論基礎。

再介紹 Richard Sutton（薩頓）。

如果說 Silver 是強化學習的「實踐大師」，Sutton 就是這個領域的「開山祖師」。他在 1980 年代就奠定了強化學習的理論基礎，他與 Andrew Barto 合著的《Reinforcement Learning: An Introduction》是全球 AI 研究者的必讀經典。

Sutton 在 2024 年與 Barto 共同獲得圖靈獎——電腦科學界的諾貝爾獎。他同時也是 DeepMind 的傑出研究科學家、加拿大阿爾伯塔大學教授。

當這兩位聯手發表論文，整個 AI 圈都得認真聽。

他們說了什麼？

核心論點很直接：AI 從人類資料學習的時代，已經走到盡頭了。

過去幾年，ChatGPT、Claude、Gemini 這些大型語言模型的成功，靠的是「吃」大量人類產生的資料——網路文章、書籍、對話紀錄。但 Silver 和 Sutton 認為，這條路快走不下去了：

「高品質資料來源——那些真正能提升強大 AI 效能的資料——要嘛已經被用完，要嘛很快就會被用完。」

更關鍵的是，真正突破性的知識，本來就不存在於人類現有的資料裡。新的定理、新的技術、新的科學發現，都在人類理解的邊界之外。AI 如果只會模仿人類已知的東西，永遠無法超越人類。

「經驗時代」是什麼意思？

用一個比喻來說明。

想像你要學騎腳踏車。

人類資料時代的學法：讀一百本「如何騎腳踏車」的書，看一千部騎車教學影片，背下所有平衡技巧的文字描述。然後上車。

經驗時代的學法：直接上車，跌倒，爬起來，再試，慢慢抓到平衡感。

哪種方法能讓你真正學會騎車？答案很明顯。

Silver 和 Sutton 說的「經驗」（Experience），就是 AI 透過實際與環境互動、嘗試錯誤、從結果中學習的過程。這正是強化學習的核心——也是 AlphaGo、AlphaZero 成功的關鍵。

他們舉了一個具體例子：AlphaProof。

這是 DeepMind 在 2024 年開發的數學證明系統。它先從人類數學家多年累積的約十萬個形式化證明中學習基礎，然後透過強化學習，自己與證明系統互動，產生了超過一億個新的證明。最終，它成為第一個在國際數學奧林匹克競賽中獲得獎牌的 AI 程式。

十萬 vs. 一億。這就是「經驗」的力量。

經驗時代的四大特徵

Silver 和 Sutton 描述了這個新時代的 AI 會有什麼不同：

1. 持續的經驗流，而非短片段互動

現在的 ChatGPT 是怎麼運作的？你問一個問題，它回答，結束。下次對話，它幾乎什麼都不記得。

但人類不是這樣學習的。我們的經驗是連續的——今天學的東西會影響明天的行為，上週犯的錯會讓這週更謹慎。

想像一個健康管理 AI，能持續追蹤你好幾個月的睡眠、運動、飲食習慣，根據長期趨勢給你建議，而不是每次都像第一次見面。

或者一個語言學習 AI，能記住你三個月前哪裡卡住、你的學習風格是什麼，持續調整教學方法。

2. 豐富的環境互動，而非只透過對話

目前的 AI 主要透過文字跟人類互動。但真正的智慧需要更豐富的感知和行動能力。

Silver 和 Sutton 指出，AI 開始能操作電腦介面（像 Anthropic 的 Computer Use、Google 的 Project Mariner、OpenAI 的 Operator）、執行程式碼並觀察結果、甚至控制機器手臂做實驗。

這就像從「只會寫信」進化到「能實際動手做事」。

3. 基於環境的獎勵，而非人類預判

現在的 AI 怎麼知道自己做得好不好？主要靠人類評分。人類說「這個回答好」，AI 就學習產生類似的回答。

問題是：人類可能判斷錯誤。

如果一個健康 AI 的「好壞」是由人類專家判斷它的建議「聽起來合不合理」，那它永遠無法發現那些「聽起來不合理但實際有效」的方法。

更好的做法是：讓 AI 的目標直接連結到真實世界的指標。健康 AI 的成功指標應該是你的心率、睡眠品質、體重變化，而不是專家覺得它的建議「聽起來很專業」。

這就像評估廚師的標準應該是「客人吃完覺得好吃」，而不是「看食譜寫得漂不漂亮」。

4. 非人類式的推理與規劃

這點最有意思，也最有爭議。

現在的 AI 推理方式是模仿人類的思考過程——用人類語言、按人類邏輯一步步推導。但 Silver 和 Sutton 認為，人類的思考方式不一定是最有效率的。

他們舉了一個例子：如果 AI 是用五千年前人類的思維方式訓練的，它會用「萬物有靈」來解釋物理現象；用一千年前的思維，它會用神學來解釋；用三百年前的，它會用牛頓力學；用五十年前的，才會用量子力學。

每一次進步，都需要 AI 與真實世界互動，發現舊思維的錯誤，建立新的理解方式。只靠模仿人類現有知識，永遠無法突破。

我的觀點：這對產業意味著什麼？

這篇論文的發表時機非常耐人尋味。

Silver 在 2026 年 1 月離開 DeepMind 創業，而這篇論文正是他新公司的理論宣言。他告訴朋友，他想回到「解決 AI 最困難問題的敬畏與驚奇感」——他認為光靠大型語言模型無法達成超級智慧。

這代表什麼？強化學習正在回歸 AI 研究的核心。

過去幾年，整個產業都在追逐「更大的模型、更多的資料」。OpenAI、Anthropic、Google 都在比誰能訓練出更大的語言模型。但現在，連 DeepSeek 都在論文中強調：

「這凸顯了強化學習的力量與美麗：與其明確教導模型如何解決問題，我們只需提供正確的誘因，它就會自主發展出進階的問題解決策略。」

我認為接下來會看到幾個變化：

AI Agent 會變得更重要。能夠持續與環境互動、從結果中學習的 Agent，會是下一波競爭的焦點。
模擬環境會變成新的基礎設施。要讓 AI 累積「經驗」，需要大量的模擬環境讓它練習。這會是新的商業機會。
「人類回饋」可能不再是唯一的訓練訊號。我們會看到更多基於真實世界指標的訓練方法。
DeepMind 的優勢可能重新浮現。他們在強化學習上的積累，比任何一家公司都深。

當然，這篇論文也有其侷限。Silver 和 Sutton 都是強化學習的信徒，他們的觀點自然會偏向這個方向。大型語言模型的能力也還沒完全被探索完畢。

但不管你同不同意他們的結論，這篇論文提出的問題是真實的：當人類資料不夠用的時候，AI 下一步該怎麼走？

這兩位大師給出了他們的答案。接下來，就看整個產業怎麼回應了。

延伸閱讀：