Sora 不是世界模型:NVIDIA 投資的 Moonlake 如何用「結構」取代「規模」
AI 影片生成模型能產出驚豔畫面,卻無法讓你在生成的世界裡做任何事。Moonlake AI 提出「結構優先」路線,用多模態推理模型搭配擴散模型 Reverie,打造能互動、有因果邏輯的世界模型,獲 NVIDIA 等投資 2800 萬美元種子輪。

本文整理自 Latent Space Podcast 2026 年 4 月播出的單集。
{{< youtube oBWRHnggscM >}}
{{< spotify "episode/18MXGpmkmdIGg1LjnqNoFU" >}}
{{< apple-podcast "tw/podcast/moonlake-causal-world-models-should-be-multimodal-interactive/id1674008350?i=1000758897864" >}}
好看的影片,空洞的世界
想像你用 AI 生成了一個漂亮的保齡球館。燈光柔和,球道光滑,木瓶排列整齊。畫面精緻到你幾乎能聞到球道蠟的味道。但當你試圖拿起球、瞄準、丟出去的時候,什麼都不會發生。球不會滾,瓶子不會倒,分數不會跳。
這就是 Sora、Veo 等 AI 影片生成模型的根本問題。它們能產出令人讚嘆的視覺效果,但生成的世界本質上是一座布景,你只能沿著固定軌道欣賞,不能走進去觸碰任何東西,更不能觀察自己行動帶來的後果。新創公司 Moonlake AI 的兩位創辦人,史丹佛大學機器學習講座教授 Chris Manning 與執行長 Fan-yun Sun,在 Latent Space Podcast 上直言:「漂亮的視覺效果幾秒鐘就看膩了,遊戲的核心永遠是玩法和互動。」
Moonlake 拿下 AIX Ventures、Threshold Ventures 與 NVIDIA Ventures 共 2800 萬美元的種子輪投資,走的是一條與 Sora 截然不同的路。他們不追求像素層級的寫實,而是先建構一個有因果邏輯、能回應玩家動作的「世界」,再用另一個模型把它包裝成你想要的視覺風格。
世界模型的判準:你能在裡面「做事」嗎?
Manning 對「世界模型」有一個簡潔的定義標準:如果你不能對這個世界做出動作,並且觀察到正確的後果,那它就不是世界模型。他用的術語是「動作條件化世界模型」(action-conditioned world model),意思是模型必須能夠預測「如果你做了某個動作,世界會怎樣改變」。
這聽起來像是很高的標準,但仔細想想,其實就是所有遊戲引擎在做的事情。當你在《薩爾達》裡砍一棵樹,樹會倒下,木材會掉出來,河流可能被擋住。問題在於,傳統遊戲引擎需要工程師手動定義每一條互動規則,這很昂貴也很慢。影片生成模型看似繞過了這個問題,但代價是失去了所有互動性。
更關鍵的是時間維度。預測下一個影片幀並不困難,大多數影片生成模型都能做到。真正的挑戰是預測幾分鐘後的世界狀態。在一連串的玩家動作之後,什麼會改變、什麼會維持?Manning 指出,要做到這一點,你需要的不是更多的像素資料,而是對世界更抽象的語義理解。保齡球瓶被打倒後不會復原,分數會累積,這些邏輯需要的是推理能力,不是更高的畫面解析度。
Google 的 Genie 和 World Labs 的 Marble 都號稱在做世界模型,但 Moonlake 團隊指出,這些產品目前都缺乏真正的互動性。你可以在裡面「逛」,但你不能跟物件互動、不能觀察行動的因果後果。而 Moonlake 的推理模型能做到這件事,因為它不只是在預測下一幀畫面,而是在維護一個有狀態的世界。
為什麼不能用「更多資料」解決一切?
有些人會說:只要收集夠多的影片資料,讓模型夠大,最終這些問題都會被規模解決。這就是 AI 領域著名的「苦澀教訓」(bitter lesson),主張通用的擴張方法永遠勝過手動設計的結構。Moonlake 團隊並不否認苦澀教訓的力量,但他們認為,在什麼抽象層級上應用這個教訓,才是真正要回答的問題。
Sun 用一個思想實驗來說明:如果你把所有的圖片、影片、音訊全部編碼成位元組,然後訓練一個「下一個位元組預測模型」,這是最極端的苦澀教訓路線。但你需要的運算量會大到不可思議。Manning 進一步指出,人類語言天生就是一種高度抽象的表徵。當你說一個人是「教授」而且「態度傲慢」,你用幾個詞就捕捉了大量語義資訊。要從像素層級推導出同樣程度的抽象理解,需要的資料量是文字的好幾個數量級。
這不只是效率問題。Moonlake 團隊觀察到,人類認知本身就高度依賴抽象。神經科學研究顯示,人眼接收的大部分視覺資訊根本不會被精細處理。你只會仔細看正在注視的東西,周邊視野裡的一切都被壓縮成「旁邊有個人」這種粗略的語義描述。如果人腦就是用抽象來理解世界,那 AI 為什麼非要從像素開始?
Moonlake 的雙模型架構:邏輯歸邏輯,畫面歸畫面
Moonlake 的技術路線建立在兩個分工明確的模型上。第一個是多模態推理模型,負責世界的邏輯層:因果關係、物件持久性、互動規則、遊戲狀態。這個模型不在乎畫面好不好看,它只在乎世界是否一致、行動是否有後果。
第二個模型叫 Reverie,是一個擴散模型,負責把推理模型產出的抽象世界表徵「換裝」成高品質的視覺輸出。Sun 稱之為「世界的皮膚」。你可以讓同一個保齡球遊戲看起來像寫實的保齡球館,也可以讓它變成卡通風格或賽博龐克風格,底層的物理邏輯和互動規則不會改變。
這個架構的巧妙之處在於,它把「世界的運作方式」和「世界的外觀」完全解耦。傳統的影片生成模型試圖用一個模型同時解決這兩個問題,結果是畫面漂亮但物理錯亂,物件會穿模、重力時有時無、幾秒鐘前被毀掉的東西又突然復原。Moonlake 的做法是讓推理模型先確保世界是一致且正確的,然後再由 Reverie 負責視覺呈現。Manning 把這比作人類認知的運作方式:我們對世界的理解是語義層級的抽象模型,眼睛看到的高解析度畫面只是表層。
Reverie:不只是濾鏡,而是可程式化的渲染引擎
Sun 對 Reverie 的野心不只是「讓遊戲變好看」。她認為 Reverie 有潛力成為下一代的渲染範式,取代目前遊戲產業使用的光柵化(rasterization)和 NVIDIA 的 DLSS。傳統渲染引擎是遊戲狀態的附屬品。遊戲引擎告訴渲染器「這裡有一張桌子、那裡有一面牆」,渲染器把它們畫出來,僅此而已。渲染器本身不理解也不參與遊戲邏輯。
Reverie 不一樣。因為它具備從真實世界學來的視覺先驗知識,它能做到傳統渲染器做不到的事情。Sun 舉了一個例子:你可以設定遊戲規則,讓玩家收集到 10 顆蘋果之後,武器射出的子彈變成蘋果。在傳統引擎裡,你需要美術團隊設計蘋果子彈的素材。但在 Reverie 裡,渲染器本身就理解「蘋果」是什麼,可以直接把它整合進視覺呈現中。換句話說,渲染不再只是遊戲的輸出端,它變成了遊戲機制的一部分。
這種「可程式化渲染」的想法,在目前的遊戲產業中幾乎沒有先例。它代表的不只是視覺品質的提升,而是遊戲設計可能性的擴張。Sun 認為,「我們不會比我們的使用者更有創意,但我們要確保工具讓他們能充分表達自己的意圖。」Moonlake 目前已開放 Beta 測試,等候名單超過一萬人,月費 15 美元起。
遊戲之外:具身智慧的訓練場
Moonlake 團隊認為,世界模型的價值遠不只是做遊戲。Sun 描繪了三年後的願景:你告訴平台「我想訓練一台掃地機器人,讓它在我的辦公室裡穩定運作」,世界模型就會自動生成一系列辦公室環境的變體,包含不同的家具擺設、光線條件、障礙物分布,讓機器人策略在這些環境裡反覆訓練和測試。目前機器人團隊要取得這類訓練環境非常昂貴,Sun 在 NVIDIA Research 工作期間就觀察到,企業和學術機構花了大量經費向外部供應商購買互動式模擬資料。
從遊戲切入是策略性的選擇:遊戲開發者需要互動世界,而且他們對「有趣」的標準比「寫實」更高。這正好符合 Moonlake 的技術優勢,推理模型擅長創造有邏輯的互動,而視覺品質可以交給 Reverie 後續處理。Manning 對此有一個精確的觀察:「很多成功的遊戲畫面其實很粗糙,也有很多花了大錢做出逼真畫面的遊戲很難玩。把這兩個維度分開來思考,非常重要。」
已經有跡象顯示 Moonlake 的技術確實能跨領域。他們的模型已經能處理多人互動場景,透過提示就能配置多人連線和持久化資料庫。而在 GDC 2026 的展示中,創作者用 Moonlake 的工具建構出各式各樣的互動世界,遠超團隊原先的想像。
我的觀察:世界模型競賽的路線之爭才剛開始
世界模型是 2026 年 AI 領域最熱門的賽道之一,但各家的路線差異比大型語言模型時期大得多。一邊是 Sora、Veo 為代表的「規模派」,相信只要有夠多的影片資料和夠大的模型,理解世界的能力會自然湧現。另一邊是 Moonlake 這樣的「結構派」,認為你需要在模型裡植入對世界的結構性理解,才能真正做到互動和因果推理。
Physical Intelligence(PI)最近的技術部落格也在印證類似的觀點。他們發現,要維持機器人對世界的長期記憶,最有效的方式是儲存文字描述,而不是像素資料。這暗示著,即使從純粹的工程角度出發,抽象表徵也比像素更實用。
Moonlake 目前只有 18 人,剛開放 Beta 測試,離真正改變遊戲產業還有很長的路。但他們提出的問題是對的:如果你的目標是讓人在 AI 生成的世界裡真正「做事」,那麼從結構和推理出發,可能比從像素和規模出發更聰明。