Demis Hassabis 的 AGI 路線圖:世界模型才是關鍵拼圖
DeepMind 執行長 Demis Hassabis 深度訪談:Scaling Laws 沒有撞牆但報酬遞減、AI 的「鋸齒狀智慧」現象、世界模型為何是通往 AGI 的關鍵,以及 Proto-AGI 的願景。
本文整理自 Google DeepMind Podcast 2024 年 12 月播出的單集,由 Hannah Fry 主持,專訪 DeepMind 共同創辦人兼 CEO Demis Hassabis。
{{< youtube PqVbypvxDto >}}
Gemini 2.0 剛發布,外界都在討論這個模型的能力提升。但在這集訪談中,Demis Hassabis 談得最興奮的,其實不是 Gemini 本身。他花了更多時間講「世界模型」——一種能理解物理世界運作方式的 AI 系統。在他看來,這才是通往 AGI 的關鍵拼圖。
這集訪談揭示了 DeepMind 內部怎麼看 AI 發展的路徑。不是單純的「把模型做大」,而是一條更複雜、需要多種技術匯流的道路。
Scaling 沒有撞牆,但報酬確實在遞減
2024 年底,業界流傳著「Scaling Laws 撞牆」的說法。有人認為,單純增加模型參數和訓練資料的效果正在減弱,AI 進步會因此放緩。Hassabis 不同意這個判斷,但他的反駁也不是盲目樂觀。
「我們沒有看到任何牆,」他說,「但確實有報酬遞減。」這兩件事聽起來矛盾,其實不然。報酬遞減不等於報酬歸零。早期每次模型升級可能帶來雙倍的效能提升,現在提升幅度變小了,但依然是「值得投資的顯著改進」。Gemini 2.0 在多項基準測試上的表現,證明持續投入資源仍然有效。
DeepMind 的策略是「50/50」:一半資源投入 Scaling(做大),一半投入 Innovation(做新)。Hassabis 認為,光靠其中任何一邊都無法抵達 AGI。你需要把模型做大,同時也需要研究突破。這個判斷背後有一個關鍵假設:當 Scaling 的效果逐漸遞減,研究創新的相對價值就會上升。而 DeepMind 的優勢一直是研究。過去十年的重大突破——Transformer、AlphaGo、AlphaFold——都是從 Google 或 DeepMind 出來的。
合成數據是他們應對「數據不夠」的方法之一。在數學和程式這類可以驗證答案的領域,AI 系統已經夠好,可以自己生成訓練資料。「理論上可以產生無限的數據,」Hassabis 說。這不是天方夜譚——當你的模型能寫出正確的程式碼,你就能讓它寫更多程式碼來訓練下一代模型。
鋸齒狀智慧:博士程度與高中程度並存
當前 AI 系統有一個令人困惑的特性:它們能在國際數學奧林匹亞拿金牌,卻會在簡單的邏輯問題上犯錯;能寫出複雜的程式,卻數不清一個單字裡有幾個字母。Hassabis 用「Jagged Intelligence」(鋸齒狀智慧)來描述這個現象。
「它們在某些維度上達到博士水準,在另一些維度上連高中都不如,」他解釋。這種不一致性正是目前 AI 尚未達到 AGI 的關鍵原因。一個真正的通用智慧,應該在各種任務上都維持穩定的表現水準,不會在簡單問題上翻車。
為什麼會這樣?原因很多,而且因情況而異。有時候是 tokenization 的問題——模型處理文字的方式讓它「看不到」每個字母,所以數字母會出錯。有時候是訓練資料的偏差——某些類型的問題在訓練資料中很少見,模型就學不好。有時候是推理深度不足——模型傾向於快速給出答案,而不是停下來仔細檢查。
Hassabis 認為「Thinking」(思考)系統是解方之一。這類系統在回答問題前會花更多時間「思考」,產生中間推理步驟。但目前的實作還不夠可靠。「它會花時間思考,但不一定把思考時間用在有用的地方,」他說。理想狀態是系統能自己判斷什麼時候需要深思熟慮、什麼時候可以快速回答,並且會用工具去驗證自己的輸出。
另一個缺失是「知道自己不知道什麼」的能力。AlphaFold 預測蛋白質結構時會附上信心分數,告訴你它對這個預測有多確定。但目前的語言模型沒有這個機制。它們會「硬著頭皮回答」不確定的問題,而不是說「我不知道」。Hassabis 認為,隨著模型變得更強,它們會更了解自己知識的邊界,這個問題有機會改善。
世界模型:語言之外的理解
語言模型能從文字中學到很多關於世界的知識,這點超出了多數人的預期。但 Hassabis 認為,光靠語言還是不夠。有些東西很難用文字描述——物體怎麼移動、液體怎麼流動、手指觸碰桌面的感覺。這些「身體性」的知識,需要另一種學習方式。
「世界模型」是 DeepMind 對這個問題的回答。這是一種能理解物理世界因果關係的 AI 系統——不只是「看起來像」真實世界,而是真正理解重力、慣性、物體碰撞這些基本原理。測試方法之一是讓系統生成影像或影片。如果它能生成物理上合理的場景,某種程度上就證明它「懂」這些規則。
VEO 是 DeepMind 的影片生成模型,Genie 則是可互動的世界模型。Hassabis 對 VEO 處理反射和液體的能力印象深刻——「用肉眼看已經非常真實」。但他也承認,這還不夠精確。如果你用物理學的標準去檢驗,會發現模型是「近似」而非「精確」地遵循物理定律。
他們正在建立「物理基準測試」來量化這個問題。用遊戲引擎生成精確的物理模擬——球滾下斜坡、單擺擺動、物體碰撞——然後測試 AI 模型能否準確預測結果。「就像高中物理實驗,」Hassabis 形容。目前的模型還做不到 100% 準確,這是通往機器人應用的障礙。一個控制機械手臂的 AI,不能只是「大概」懂物理。
Genie + SIMA:兩個 AI 的共舞
DeepMind 做了一個有趣的實驗:把兩個 AI 系統連在一起。Genie 負責生成互動式的虛擬世界,SIMA 是一個能在虛擬世界中執行任務的 AI 代理。當你把 SIMA 放進 Genie 生成的世界裡,就形成了一個自我強化的訓練循環。
SIMA 在世界中探索、嘗試完成任務。Genie 則根據 SIMA 的行動,即時生成對應的環境變化。對 Genie 來說,SIMA 只是一個「玩家」,它不在乎這個玩家是人還是另一個 AI。對 SIMA 來說,Genie 生成的世界就是它的訓練場。這個設計的精妙之處在於:你可以讓 Genie 自動生成無限多的訓練場景,難度逐漸升級,SIMA 就能持續學習新能力。
「想像一下,」Hassabis 說,「自動設定並解決數百萬個任務,難度不斷提升。」這種方法繞過了人工標註訓練資料的瓶頸。傳統的 AI 訓練需要大量人類標註的資料,成本高昂且難以擴展。但如果 AI 能在自己生成的世界裡訓練自己,擴展性就完全不同了。
這個研究方向有多重應用可能。遊戲產業可以用它打造更聰明的 NPC——不是照劇本行動的木頭人,而是能真正理解環境、做出合理反應的角色。機器人領域可以用它預訓練控制系統——先在虛擬世界裡學會操作,再遷移到真實機器人上。Hassabis 還提到,他想把這項技術用回遊戲開發,「這可能一直是我潛意識裡的計畫」。他早年是遊戲設計師出身。
物理幻覺:模擬的下一道關卡
但這裡有一個問題:如果 Genie 生成的世界物理規則不準確,SIMA 學到的東西就沒辦法用在真實世界。這就是「物理幻覺」——模擬看起來合理,但實際上是錯的。
某種程度上,幻覺不全然是壞事。如果你想要創意、想要新奇的內容,一點「幻覺」反而是優勢。但如果你要訓練一個會操作真實機械手臂的 AI,精確度就是生死攸關的事。Hassabis 的解決方向是:用遊戲引擎生成大量「物理正確」的訓練資料,讓模型學會真正的牛頓力學,而不只是「看起來像」牛頓力學。
這項工作還在進行中。當 VEO 和 Genie 能通過高中物理等級的測試時,它們就能成為可靠的機器人訓練環境。在那之前,這些世界模型主要用於內容生成和研究探索。
Proto-AGI:當所有模型匯流
Hassabis 描繪的願景是:把 Gemini(語言理解)、VEO(影片生成)、Genie(互動世界)、SIMA(任務執行)這些目前分開的專案,整合成一個統一的系統。「某個時候我們需要把這些不同的專案收斂成一個大模型,」他說,「那可能就是 Proto-AGI 的候選者。」
這個整合不只是技術上的拼裝,而是讓系統同時具備:理解語言的能力、理解視覺的能力、理解物理世界的能力、在環境中行動的能力。一個真正的通用智慧,應該要能處理所有這些面向,而不是只擅長其中一項。
他們也同時在推進其他「根節點問題」:與 Commonwealth Fusion 合作研究核融合、協助 Google 量子團隊做錯誤校正、探索室溫超導體和新型電池材料。這些聽起來跟 AI 沒有直接關係,但 Hassabis 的邏輯是:AI 可以加速這些基礎科學的突破,而這些突破又會反過來推動更強的 AI。AlphaFold 證明了這條路是可行的。
五到十年。這是 Hassabis 給出的 AGI 時間線。不是最激進的預測,但也不算保守。他似乎很確定方向是對的,剩下的只是執行和時間的問題。
本文為 Demis Hassabis 訪談系列的第一篇。下一篇將探討 AI 對社會經濟的衝擊——為什麼 Hassabis 認為這場變革會比工業革命快十倍。