AI 技術前沿

Sora 不是世界模型：NVIDIA 投資的 Moonlake 如何用「結構」取代「規模」

AI 影片生成模型能產出驚豔畫面，卻無法讓你在生成的世界裡做任何事。Moonlake AI 提出「結構優先」路線，用多模態推理模型搭配擴散模型 Reverie，打造能互動、有因果邏輯的世界模型，獲 NVIDIA 等投資 2800 萬美元種子輪。

2026 年 5 月 30 日 · 來源： Latent Space: The AI Engineer Podcast

Sora 不是世界模型：NVIDIA 投資的 Moonlake 如何用「結構」取代「規模」

本文整理自 Latent Space Podcast 2026 年 4 月播出的單集。

{{< apple-podcast "tw/podcast/moonlake-causal-world-models-should-be-multimodal-interactive/id1674008350?i=1000758897864" >}}

好看的影片，空洞的世界

想像你用 AI 生成了一個漂亮的保齡球館。燈光柔和，球道光滑，木瓶排列整齊。畫面精緻到你幾乎能聞到球道蠟的味道。但當你試圖拿起球、瞄準、丟出去的時候，什麼都不會發生。球不會滾，瓶子不會倒，分數不會跳。

這就是 Sora、Veo 等 AI 影片生成模型的根本問題。它們能產出令人讚嘆的視覺效果，但生成的世界本質上是一座布景，你只能沿著固定軌道欣賞，不能走進去觸碰任何東西，更不能觀察自己行動帶來的後果。新創公司 Moonlake AI 的兩位創辦人，史丹佛大學機器學習講座教授 Chris Manning 與執行長 Fan-yun Sun，在 Latent Space Podcast 上直言：「漂亮的視覺效果幾秒鐘就看膩了，遊戲的核心永遠是玩法和互動。」

Moonlake 拿下 AIX Ventures、Threshold Ventures 與 NVIDIA Ventures 共 2800 萬美元的種子輪投資，走的是一條與 Sora 截然不同的路。他們不追求像素層級的寫實，而是先建構一個有因果邏輯、能回應玩家動作的「世界」，再用另一個模型把它包裝成你想要的視覺風格。

世界模型的判準：你能在裡面「做事」嗎？

Manning 對「世界模型」有一個簡潔的定義標準：如果你不能對這個世界做出動作，並且觀察到正確的後果，那它就不是世界模型。他用的術語是「動作條件化世界模型」（action-conditioned world model），意思是模型必須能夠預測「如果你做了某個動作，世界會怎樣改變」。

這聽起來像是很高的標準，但仔細想想，其實就是所有遊戲引擎在做的事情。當你在《薩爾達》裡砍一棵樹，樹會倒下，木材會掉出來，河流可能被擋住。問題在於，傳統遊戲引擎需要工程師手動定義每一條互動規則，這很昂貴也很慢。影片生成模型看似繞過了這個問題，但代價是失去了所有互動性。

更關鍵的是時間維度。預測下一個影片幀並不困難，大多數影片生成模型都能做到。真正的挑戰是預測幾分鐘後的世界狀態。在一連串的玩家動作之後，什麼會改變、什麼會維持？Manning 指出，要做到這一點，你需要的不是更多的像素資料，而是對世界更抽象的語義理解。保齡球瓶被打倒後不會復原，分數會累積，這些邏輯需要的是推理能力，不是更高的畫面解析度。

Google 的 Genie 和 World Labs 的 Marble 都號稱在做世界模型，但 Moonlake 團隊指出，這些產品目前都缺乏真正的互動性。你可以在裡面「逛」，但你不能跟物件互動、不能觀察行動的因果後果。而 Moonlake 的推理模型能做到這件事，因為它不只是在預測下一幀畫面，而是在維護一個有狀態的世界。

為什麼不能用「更多資料」解決一切？

有些人會說：只要收集夠多的影片資料，讓模型夠大，最終這些問題都會被規模解決。這就是 AI 領域著名的「苦澀教訓」（bitter lesson），主張通用的擴張方法永遠勝過手動設計的結構。Moonlake 團隊並不否認苦澀教訓的力量，但他們認為，在什麼抽象層級上應用這個教訓，才是真正要回答的問題。

Sun 用一個思想實驗來說明：如果你把所有的圖片、影片、音訊全部編碼成位元組，然後訓練一個「下一個位元組預測模型」，這是最極端的苦澀教訓路線。但你需要的運算量會大到不可思議。Manning 進一步指出，人類語言天生就是一種高度抽象的表徵。當你說一個人是「教授」而且「態度傲慢」，你用幾個詞就捕捉了大量語義資訊。要從像素層級推導出同樣程度的抽象理解，需要的資料量是文字的好幾個數量級。

這不只是效率問題。Moonlake 團隊觀察到，人類認知本身就高度依賴抽象。神經科學研究顯示，人眼接收的大部分視覺資訊根本不會被精細處理。你只會仔細看正在注視的東西，周邊視野裡的一切都被壓縮成「旁邊有個人」這種粗略的語義描述。如果人腦就是用抽象來理解世界，那 AI 為什麼非要從像素開始？

Moonlake 的雙模型架構：邏輯歸邏輯，畫面歸畫面

Moonlake 的技術路線建立在兩個分工明確的模型上。第一個是多模態推理模型，負責世界的邏輯層：因果關係、物件持久性、互動規則、遊戲狀態。這個模型不在乎畫面好不好看，它只在乎世界是否一致、行動是否有後果。

第二個模型叫 Reverie，是一個擴散模型，負責把推理模型產出的抽象世界表徵「換裝」成高品質的視覺輸出。Sun 稱之為「世界的皮膚」。你可以讓同一個保齡球遊戲看起來像寫實的保齡球館，也可以讓它變成卡通風格或賽博龐克風格，底層的物理邏輯和互動規則不會改變。

這個架構的巧妙之處在於，它把「世界的運作方式」和「世界的外觀」完全解耦。傳統的影片生成模型試圖用一個模型同時解決這兩個問題，結果是畫面漂亮但物理錯亂，物件會穿模、重力時有時無、幾秒鐘前被毀掉的東西又突然復原。Moonlake 的做法是讓推理模型先確保世界是一致且正確的，然後再由 Reverie 負責視覺呈現。Manning 把這比作人類認知的運作方式：我們對世界的理解是語義層級的抽象模型，眼睛看到的高解析度畫面只是表層。

Reverie：不只是濾鏡，而是可程式化的渲染引擎

Sun 對 Reverie 的野心不只是「讓遊戲變好看」。她認為 Reverie 有潛力成為下一代的渲染範式，取代目前遊戲產業使用的光柵化（rasterization）和 NVIDIA 的 DLSS。傳統渲染引擎是遊戲狀態的附屬品。遊戲引擎告訴渲染器「這裡有一張桌子、那裡有一面牆」，渲染器把它們畫出來，僅此而已。渲染器本身不理解也不參與遊戲邏輯。

Reverie 不一樣。因為它具備從真實世界學來的視覺先驗知識，它能做到傳統渲染器做不到的事情。Sun 舉了一個例子：你可以設定遊戲規則，讓玩家收集到 10 顆蘋果之後，武器射出的子彈變成蘋果。在傳統引擎裡，你需要美術團隊設計蘋果子彈的素材。但在 Reverie 裡，渲染器本身就理解「蘋果」是什麼，可以直接把它整合進視覺呈現中。換句話說，渲染不再只是遊戲的輸出端，它變成了遊戲機制的一部分。

這種「可程式化渲染」的想法，在目前的遊戲產業中幾乎沒有先例。它代表的不只是視覺品質的提升，而是遊戲設計可能性的擴張。Sun 認為，「我們不會比我們的使用者更有創意，但我們要確保工具讓他們能充分表達自己的意圖。」Moonlake 目前已開放 Beta 測試，等候名單超過一萬人，月費 15 美元起。

遊戲之外：具身智慧的訓練場

Moonlake 團隊認為，世界模型的價值遠不只是做遊戲。Sun 描繪了三年後的願景：你告訴平台「我想訓練一台掃地機器人，讓它在我的辦公室裡穩定運作」，世界模型就會自動生成一系列辦公室環境的變體，包含不同的家具擺設、光線條件、障礙物分布，讓機器人策略在這些環境裡反覆訓練和測試。目前機器人團隊要取得這類訓練環境非常昂貴，Sun 在 NVIDIA Research 工作期間就觀察到，企業和學術機構花了大量經費向外部供應商購買互動式模擬資料。

從遊戲切入是策略性的選擇：遊戲開發者需要互動世界，而且他們對「有趣」的標準比「寫實」更高。這正好符合 Moonlake 的技術優勢，推理模型擅長創造有邏輯的互動，而視覺品質可以交給 Reverie 後續處理。Manning 對此有一個精確的觀察：「很多成功的遊戲畫面其實很粗糙，也有很多花了大錢做出逼真畫面的遊戲很難玩。把這兩個維度分開來思考，非常重要。」

已經有跡象顯示 Moonlake 的技術確實能跨領域。他們的模型已經能處理多人互動場景，透過提示就能配置多人連線和持久化資料庫。而在 GDC 2026 的展示中，創作者用 Moonlake 的工具建構出各式各樣的互動世界，遠超團隊原先的想像。

我的觀察：世界模型競賽的路線之爭才剛開始

世界模型是 2026 年 AI 領域最熱門的賽道之一，但各家的路線差異比大型語言模型時期大得多。一邊是 Sora、Veo 為代表的「規模派」，相信只要有夠多的影片資料和夠大的模型，理解世界的能力會自然湧現。另一邊是 Moonlake 這樣的「結構派」，認為你需要在模型裡植入對世界的結構性理解，才能真正做到互動和因果推理。

Physical Intelligence（PI）最近的技術部落格也在印證類似的觀點。他們發現，要維持機器人對世界的長期記憶，最有效的方式是儲存文字描述，而不是像素資料。這暗示著，即使從純粹的工程角度出發，抽象表徵也比像素更實用。

Moonlake 目前只有 18 人，剛開放 Beta 測試，離真正改變遊戲產業還有很長的路。但他們提出的問題是對的：如果你的目標是讓人在 AI 生成的世界裡真正「做事」，那麼從結構和推理出發，可能比從像素和規模出發更聰明。