DeepMind CEO 在印度 AI 峰會的六個判斷:從 AGI 測試到強化學習之爭

Demis Hassabis 在印度 AI 峰會上提出一個具體的 AGI 測試:讓模型用 1911 年的知識推導出廣義相對論。他預言十年內科學發現將進入黃金時代,並公開反駁 Yann LeCun「強化學習只是蛋糕上的櫻桃」的論點。

DeepMind CEO 在印度 AI 峰會的六個判斷:從 AGI 測試到強化學習之爭

本文整理自 DWS News 頻道於印度 AI 峰會(India AI Summit)錄製的 Demis Hassabis 爐邊對談。

{{< youtube v8hPUYnMxCQ >}}


怎麼測試一個 AI 系統是否達到 AGI?這個問題在業界已經辯論了幾十年,多數人給出的答案要嘛太模糊(「跟人一樣聰明」),要嘛太窄(「通過圖靈測試」)。DeepMind 執行長 Demis Hassabis 在印度 AI 峰會上給了一個非常具體的答案:把一個基礎模型的知識截止點設在 1911 年,看它能不能像愛因斯坦在 1915 年那樣,獨立推導出廣義相對論。

這個測試之所以有意思,不只是因為它夠具體,而是因為它直指 Hassabis 認為 AGI 最核心的能力:不是解決已知問題,而是提出正確的問題、形成新的假說。在他看來,這才是區分偉大科學家和優秀科學家的關鍵。今天的 AI 系統顯然做不到這一點。

但 Hassabis 不只談了 AGI。在這場大約 30 分鐘的對談中,他涵蓋了科學發現、AI 安全、機器人學、通用模型 vs. 專用工具的架構取捨,以及一場跟 Yann LeCun 的公開學術辯論。以下是他的六個核心判斷。

判斷一:科學發現將進入黃金時代

Hassabis 說他花了一輩子投入 AI,最根本的動機就是把它變成科學研究的終極工具。他預測接下來十年,人類將進入一個科學發現的新黃金時代,甚至用了「文藝復興」這個字眼。

AlphaFold 是這個願景的第一個實例。它利用蛋白質資料庫(PDB)中人類五十年來辛苦累積的十五萬個結構,解決了蛋白質摺疊預測問題。但 Hassabis 強調這只是起點。接下來的階段是 AI 成為科學家的合作夥伴——像一個博士生那樣跟人類研究員協作。他預估這還需要十年以上。

他特別看好跨領域科學研究。人類科學家要同時精通兩三個學科已經很困難,更不用說四個以上。但 AI 可以處理來自多個領域的資訊,找到人類不容易察覺的跨學科連結。Hassabis 認為這是 AI 對科學最有價值的貢獻之一。

判斷二:AI 在可驗證領域表現最好,主觀領域還很遠

為什麼 AI 在寫程式、數學、下棋這些事情上特別厲害?Hassabis 的解釋很直接:因為這些領域的答案可以被百分之百驗證。你可以建立龐大的題庫,讓 AI 的輸出被自動檢查對錯,這讓訓練效率極高。

但政策制定、人文學科、倫理判斷這類領域就完全不同。什麼叫「好的決策」?你沒辦法重複實驗,也沒有明確的標準答案。這讓 AI 很難從中學到有效的信號。Hassabis 認為這些領域對 AI 來說會難得多,短期內不太可能有突破。

判斷三:兩類 AI 風險都需要國際合作

Hassabis 描述了 DeepMind 從創立之初就在思考的安全問題。他把風險分成兩類。

第一類是壞人利用 AI 做壞事。特別是生物武器和網路攻擊這兩個領域,現有的 AI 系統已經相當有能力。Hassabis 強調,網路防禦必須比攻擊手段更強大。

第二類是技術對齊問題。隨著 AI 系統變得更自主——他稱之為「agentic 時代」——我們必須確保這些系統做的事情在預期範圍內,不會偏離到意料之外的方向。

兩類風險都需要國際對話和最低限度的全球標準。Hassabis 特別在峰會的場合強調這一點,因為 AI 是數位技術,無法被國界限制。

判斷四:通用模型 vs. 專用工具,關鍵是遷移性

什麼知識該放進通用基礎模型(像 Gemini),什麼應該留在專用工具裡(像 AlphaFold)?這是 DeepMind 內部持續在做的架構決策。

Hassabis 給出了一個清晰的判斷標準:看這些知識能不能遷移到其他任務。如果能,就放進基礎模型;如果不能,就留在專用工具裡,讓基礎模型在需要的時候呼叫它。

程式碼和數學就屬於前者。學好寫程式和數學之後,模型在規劃和推理上的能力也會提升——這些技能可以遷移。但蛋白質摺疊是高度專業化的知識,把蛋白質資料塞進通用模型裡,反而可能讓語言能力退化。所以 AlphaFold 應該留在外面當工具。

Hassabis 補充說,他們經常在小型模型上做消融實驗(ablation),測試加入不同資料集後對其他基準的影響。這不是理論問題,而是經驗問題。

判斷五:機器人學即將迎來突破時刻

十年前 Hassabis 對機器人學不太感興趣,因為他認為瓶頸在演算法,不在機械本體。但現在他越來越興奮,原因是多模態基礎模型——特別是 Gemini——讓機器人有了對物理世界的通用理解。

他預測在接下來兩到三年內,機器人學會出現一些重大突破時刻。人形和非人形機器人都會有用,但他也潑了冷水:有些機器人公司的宣稱太超前了,還需要更多研究。而且在大規模部署之前,安全護欄必須到位——特別是重型人形機器人。

判斷六:反駁 LeCun,強化學習不是蛋糕上的櫻桃

這是整場對談中最具學術火藥味的環節。主持人直接問:Yann LeCun 把強化學習稱為「蛋糕上的櫻桃」(cherry on top),你怎麼看?

Hassabis 明確表示他從來沒有同意過這個說法。他的核心論點是:不是所有的資訊位元(bits)都是平等的。一個獎勵信號——你贏了還是輸了——所攜帶的資訊量,遠遠大於螢幕上的一個隨機像素。把這兩種資訊的價值等量齊觀,在他看來是明顯不對的。

Hassabis 認為強化學習是 AI 後訓練和推理時計算的基礎組成部分,不是附加品。他的技術路線圖是:把 AlphaGo 時代的強化學習和規劃,建構在 Gemini 這樣的基礎模型之上。基礎模型提供世界知識的骨架,強化學習提供搜尋、規劃和決策的能力。這是他認為通往 AGI 最快的路線。

他也承認,或許二十年後會出現一個 AlphaZero 風格的純強化學習系統,從零開始學會一切。但那不是最有效率的路徑——何必忽略人類已經積累的所有知識?

最後的訊息:社會挑戰可能比技術挑戰更難

Hassabis 以「審慎的樂觀主義」做結。他對人類的聰明才智有信心,相信技術風險終究可以解決。但他也丟出了一個耐人尋味的判斷:AI 的社會協調挑戰——國際標準、治理機制、集體決策——最終可能比純技術問題更難解決。

從一個正在建造這項技術的人嘴裡說出這句話,格外值得重視。技術問題有明確的衡量標準和攻克路徑。但讓全世界的政府、企業和公民社會在 AI 治理上達成共識?這個問題沒有 loss function,也沒有 benchmark。

對印度的年輕聽眾,他的建議很實際:全力學習使用 AI 工具,現在就開始。這個時代就像網際網路剛興起的年代,原生於 AI 的世代將會做出今天無法想像的事情。而印度的年輕人口和對 AI 的積極態度,讓他們有機會站在這場變革的最前線。