AlphaGo 之父與強化學習教父聯手宣告:AI 正式進入「經驗時代」
DeepMind 前首席科學家 David Silver 與強化學習教父 Richard Sutton 聯合發表論文,主張 AI 發展已從「人類資料時代」邁入「經驗時代」。他們認為,要實現真正的超人智慧,AI 必須學會從自身與環境的互動中學習——就像人類學騎腳踏車一樣。

本文整理自 David Silver 與 Richard Sutton 於 2025 年 4 月發表的論文《Welcome to the Era of Experience》,該論文即將收錄於 MIT Press 出版的《Designing an Intelligence》一書。
如果你關注 AI 發展,這兩個名字你必須記住:David Silver 和 Richard Sutton。
他們最近聯手發表了一篇論文,宣告 AI 正式進入新時代。這不是普通的學術論文——這是兩位領域最重要人物的聯合宣言,份量相當於賈伯斯和沃茲尼克一起寫文章談個人電腦的未來。
這兩位是誰?為什麼他們說的話很重要?
先介紹 David Silver。
2016 年,Google DeepMind 的 AlphaGo 擊敗世界圍棋冠軍李世乭,震驚全球。Silver 就是 AlphaGo 計畫的主導者。後來他又帶領團隊開發出 AlphaZero——一個從零開始自學,在 24 小時內就超越所有人類棋譜知識的 AI 系統。
他在 DeepMind 待了超過十年,是強化學習(Reinforcement Learning)研究的領軍人物。2026 年 1 月,他離開 DeepMind,創立了自己的新公司 Ineffable Intelligence。這篇論文,正是他新願景的理論基礎。
再介紹 Richard Sutton(薩頓)。
如果說 Silver 是強化學習的「實踐大師」,Sutton 就是這個領域的「開山祖師」。他在 1980 年代就奠定了強化學習的理論基礎,他與 Andrew Barto 合著的《Reinforcement Learning: An Introduction》是全球 AI 研究者的必讀經典。
Sutton 在 2024 年與 Barto 共同獲得圖靈獎——電腦科學界的諾貝爾獎。他同時也是 DeepMind 的傑出研究科學家、加拿大阿爾伯塔大學教授。
當這兩位聯手發表論文,整個 AI 圈都得認真聽。
他們說了什麼?
核心論點很直接:AI 從人類資料學習的時代,已經走到盡頭了。
過去幾年,ChatGPT、Claude、Gemini 這些大型語言模型的成功,靠的是「吃」大量人類產生的資料——網路文章、書籍、對話紀錄。但 Silver 和 Sutton 認為,這條路快走不下去了:
「高品質資料來源——那些真正能提升強大 AI 效能的資料——要嘛已經被用完,要嘛很快就會被用完。」
更關鍵的是,真正突破性的知識,本來就不存在於人類現有的資料裡。新的定理、新的技術、新的科學發現,都在人類理解的邊界之外。AI 如果只會模仿人類已知的東西,永遠無法超越人類。
「經驗時代」是什麼意思?
用一個比喻來說明。
想像你要學騎腳踏車。
人類資料時代的學法:讀一百本「如何騎腳踏車」的書,看一千部騎車教學影片,背下所有平衡技巧的文字描述。然後上車。
經驗時代的學法:直接上車,跌倒,爬起來,再試,慢慢抓到平衡感。
哪種方法能讓你真正學會騎車?答案很明顯。
Silver 和 Sutton 說的「經驗」(Experience),就是 AI 透過實際與環境互動、嘗試錯誤、從結果中學習的過程。這正是強化學習的核心——也是 AlphaGo、AlphaZero 成功的關鍵。
他們舉了一個具體例子:AlphaProof。
這是 DeepMind 在 2024 年開發的數學證明系統。它先從人類數學家多年累積的約十萬個形式化證明中學習基礎,然後透過強化學習,自己與證明系統互動,產生了超過一億個新的證明。最終,它成為第一個在國際數學奧林匹克競賽中獲得獎牌的 AI 程式。
十萬 vs. 一億。這就是「經驗」的力量。
經驗時代的四大特徵
Silver 和 Sutton 描述了這個新時代的 AI 會有什麼不同:
1. 持續的經驗流,而非短片段互動
現在的 ChatGPT 是怎麼運作的?你問一個問題,它回答,結束。下次對話,它幾乎什麼都不記得。
但人類不是這樣學習的。我們的經驗是連續的——今天學的東西會影響明天的行為,上週犯的錯會讓這週更謹慎。
想像一個健康管理 AI,能持續追蹤你好幾個月的睡眠、運動、飲食習慣,根據長期趨勢給你建議,而不是每次都像第一次見面。
或者一個語言學習 AI,能記住你三個月前哪裡卡住、你的學習風格是什麼,持續調整教學方法。
2. 豐富的環境互動,而非只透過對話
目前的 AI 主要透過文字跟人類互動。但真正的智慧需要更豐富的感知和行動能力。
Silver 和 Sutton 指出,AI 開始能操作電腦介面(像 Anthropic 的 Computer Use、Google 的 Project Mariner、OpenAI 的 Operator)、執行程式碼並觀察結果、甚至控制機器手臂做實驗。
這就像從「只會寫信」進化到「能實際動手做事」。
3. 基於環境的獎勵,而非人類預判
現在的 AI 怎麼知道自己做得好不好?主要靠人類評分。人類說「這個回答好」,AI 就學習產生類似的回答。
問題是:人類可能判斷錯誤。
如果一個健康 AI 的「好壞」是由人類專家判斷它的建議「聽起來合不合理」,那它永遠無法發現那些「聽起來不合理但實際有效」的方法。
更好的做法是:讓 AI 的目標直接連結到真實世界的指標。健康 AI 的成功指標應該是你的心率、睡眠品質、體重變化,而不是專家覺得它的建議「聽起來很專業」。
這就像評估廚師的標準應該是「客人吃完覺得好吃」,而不是「看食譜寫得漂不漂亮」。
4. 非人類式的推理與規劃
這點最有意思,也最有爭議。
現在的 AI 推理方式是模仿人類的思考過程——用人類語言、按人類邏輯一步步推導。但 Silver 和 Sutton 認為,人類的思考方式不一定是最有效率的。
他們舉了一個例子:如果 AI 是用五千年前人類的思維方式訓練的,它會用「萬物有靈」來解釋物理現象;用一千年前的思維,它會用神學來解釋;用三百年前的,它會用牛頓力學;用五十年前的,才會用量子力學。
每一次進步,都需要 AI 與真實世界互動,發現舊思維的錯誤,建立新的理解方式。只靠模仿人類現有知識,永遠無法突破。
我的觀點:這對產業意味著什麼?
這篇論文的發表時機非常耐人尋味。
Silver 在 2026 年 1 月離開 DeepMind 創業,而這篇論文正是他新公司的理論宣言。他告訴朋友,他想回到「解決 AI 最困難問題的敬畏與驚奇感」——他認為光靠大型語言模型無法達成超級智慧。
這代表什麼?強化學習正在回歸 AI 研究的核心。
過去幾年,整個產業都在追逐「更大的模型、更多的資料」。OpenAI、Anthropic、Google 都在比誰能訓練出更大的語言模型。但現在,連 DeepSeek 都在論文中強調:
「這凸顯了強化學習的力量與美麗:與其明確教導模型如何解決問題,我們只需提供正確的誘因,它就會自主發展出進階的問題解決策略。」
我認為接下來會看到幾個變化:
AI Agent 會變得更重要。能夠持續與環境互動、從結果中學習的 Agent,會是下一波競爭的焦點。
模擬環境會變成新的基礎設施。要讓 AI 累積「經驗」,需要大量的模擬環境讓它練習。這會是新的商業機會。
「人類回饋」可能不再是唯一的訓練訊號。我們會看到更多基於真實世界指標的訓練方法。
DeepMind 的優勢可能重新浮現。他們在強化學習上的積累,比任何一家公司都深。
當然,這篇論文也有其侷限。Silver 和 Sutton 都是強化學習的信徒,他們的觀點自然會偏向這個方向。大型語言模型的能力也還沒完全被探索完畢。
但不管你同不同意他們的結論,這篇論文提出的問題是真實的:當人類資料不夠用的時候,AI 下一步該怎麼走?
這兩位大師給出了他們的答案。接下來,就看整個產業怎麼回應了。
延伸閱讀: