5 秒影片要 5 萬個 token:從世界模型到生成式 UI,影片 AI 的下一個戰場
前 xAI 工程師 Ethan He 定義世界模型的三大要素:即時、互動、長時序,並描繪生成式 UI 取代傳統介面的願景。從 Flipbook 到 Neural OS 的展示,從十億支影片的儲存成本到步驟蒸餾的推論加速,再到影片 Agent 的商業化預測,深入解析影片 AI 的下一步棋。

本文整理自《Latent Space》2026 年 6 月播出的單集,為系列第二篇。
{{< youtube jPtQlILfkhA >}}
Flipbook:一個不存在的網路
想像打開一個瀏覽器,輸入一個網址,看到的頁面、按鈕、文字、圖片全都是 AI 即時生成的。這些網頁從來不存在於任何伺服器上,每一個元素都是影片生成模型在你點擊的瞬間想像出來的。這就是 Flipbook,一個最近引爆討論的實驗性展示。在 Latent Space Podcast 的訪談中,前 xAI 工程師 Ethan He 把 Flipbook 當作他心目中「世界模型終局」的早期雛形。你可以在這個生成式瀏覽器裡探索金字塔的工程原理,每點進一個子頁面,模型就即時生成一個新的知識頁面。所有內容都是虛構的,但看起來完全像真正的網頁。
另一個更激進的展示是 Neural OS,一個由影片模型即時模擬的完整作業系統。你可以在裡面玩 Doom,開 Firefox,所有的像素都是模型生成的,沒有任何真正的軟體在執行。主持人 Vibhu Agarwal 在使用時甚至下意識按了 Cmd+W 想關閉瀏覽器分頁,才發現自己看到的一切都是生成的。和一兩年前那些時間一致性很差的第一人稱射擊遊戲展示相比,Neural OS 的流暢度已經到了讓人混淆虛實的程度。
Ethan 看到的不只是技術展示,而是一個根本性的介面革命。他描繪了一個「生成式 UI」的未來:使用者的意圖直接轉化為像素,跳過傳統的程式碼、編譯、渲染管線。如果你想讓電子郵件的介面像 TikTok 一樣可以左右滑動,或者希望 Instagram 沒有按讚按鈕,只要說出來,擴散模型就能即時生成符合你需求的個人化介面。在他的設想中,未來的架構會是語言模型和程式模型在後端運行確定性的邏輯,擴散模型則作為前端來呈現所有視覺輸出。
當然,這個願景現在還太昂貴。Ethan 自己也算了一筆帳:即使 H100 每月只要 1 美元(目前的全利用率成本約 240 美元),每天用八小時、用 30 天,消費者也不見得願意為此付費。但如果算上推論成本持續下降的趨勢(主持人 swyx 認為語言模型的等效成本下降速度接近每 12 到 18 個月 100 到 1000 倍),這個未來並不遙遠。Ethan 用頻寬的角度來論證:人類接收資訊的最大頻寬是視覺(看影片),輸出資訊的最大頻寬是語音(說話)。所以在神經介面出現之前,語音輸入加上生成式影片輸出,就是人機互動的頻寬上限。
世界模型的三大要素
Flipbook 和 Neural OS 令人驚艷,但離真正的「世界模型」還有多遠?Ethan 提出了一個清晰的三軸定義。第一個軸是互動性:模型必須能有意義地回應鍵盤、滑鼠和語音的輸入。第二個軸是即時性:回應的延遲必須低到使用者感覺不到。第三個軸是長時序:生成的內容不能只有幾秒鐘,要能持續數分鐘甚至數小時並保持一致性。三者同時達標,才算得上世界模型。
即時性的要求因場景而異,差距極大。對於數位人(Digital Human)這類對話式應用,200 毫秒的回應時間勉強可以接受。但如果是電競場景,專業的 CS:GO 玩家要求 300 幀以上的畫面更新率,意味著每一幀的回應時間不能超過 3 毫秒。目前的影片模型離這個目標還非常遠。更棘手的是,影片模型使用的 VAE(變分自編碼器)通常會壓縮時間維度。例如 Wan 2.1 的 VAE 使用 8×8×4 的壓縮比,其中的 4 代表把 4 幀壓縮成一個 token。這在訓練上非常有效率,但代價是模型必須等湊齊 4 幀之後才能輸出,天生就有延遲。如果不壓縮時間維度(也就是逐幀處理),上下文長度立刻膨脹成四倍,讓更長時序的生成變得不可能。
長時序的問題則直接碰撞了上下文長度的物理極限。在 NVIDIA Cosmos 的 token 化方案下,5 秒影片大約產生 5 萬到 6 萬個 token。50 秒就是 50 萬個 token。超過幾分鐘,token 數量就完全失控。目前大部分影片模型只能生成幾秒鐘的片段。有人用「把最後一幀當成下一段的第一幀」的技巧來接力生成,但品質會快速衰退,因為模型只看到一幀的上下文,不知道之前發生了什麼。即使像 Veo 3 這樣使用最後一秒作為條件的做法,延伸幾次之後畫面品質也會明顯下降,角色的聲音和外貌可能在不知不覺間改變。
影片延伸:通往世界模型的中繼站
Ethan 在 xAI 帶領的世界模型小組,第一個實際落地的功能是影片延伸(Video Extension)。和簡單的最後一幀接力不同,Grok Imagine 的影片延伸功能保留了所有先前生成影片的完整歷史上下文。模型知道之前誰在說話、出現了什麼物體、場景的連續性如何,然後基於這些資訊來生成下一段影片。這個功能在創作者社群中非常受歡迎,因為它讓長篇影片的生成第一次變得可行。Ethan 把它視為通往世界模型的一個中間步驟:先解決長時序的問題,再逐步加入即時性和互動性。
但「保留完整歷史」這四個字說起來容易,做起來是一場和 token 數量的戰爭。如果單純把所有歷史影片的 token 都塞進上下文,幾十秒的影片就會把上下文窗口撐爆。目前的解決方案都帶有妥協性質。Frame Pack 這篇論文提出了一種階層式的壓縮策略:最近一秒的畫面保留完整解析度,越久遠的畫面壓縮得越厲害,整體上下文長度被固定在大約六分鐘。Grok Imagine 的另一個功能「Reference-to-Video」則允許使用者上傳最多七張參考圖片(角色、物體、場景),作為生成的條件。這避免了把整段歷史塞進上下文的需要,但 Ethan 坦言這是一種「作弊」:理想狀態下,模型應該自己知道什麼時候需要回頭參考之前的內容,自動從歷史中選取相關的上下文。
Ethan 認為影片模型在長上下文管理方面的研究,其實稍微領先語言模型。因為影片模型更早遭遇到上下文爆炸的問題,被迫更早開始研究解決方案。他把當前的情況比作語言模型 Agent 框架中的各種啟發式規則:裁剪工具呼叫結果、壓縮對話歷史、注入時間戳。這些都是人工設計的規則。而他預測,不論是影片模型還是語言模型,這些啟發式方法最終都會被吸收進模型本身的訓練中,從外掛的工程技巧變成模型內建的能力。
訓練影片模型的真實成本
很少有人公開討論訓練影片模型的經濟學,但 Ethan 在節目中分享了一些讓人印象深刻的數字。光是儲存訓練資料就是一筆驚人的開銷。假設你有十億支影片,每支平均 5MB,總共需要大約 5PB(拍位元組)的儲存空間。以 AWS S3 標準方案計算,主持人 swyx 即時查到的價格是每月約 10 萬美元。但這只是影片本身。你還需要儲存 VAE 壓縮後的潛在特徵,佔用的空間和原始影片差不多,所以總儲存量輕鬆超過數十 PB,每月花費可達數百萬美元。
更大的開銷可能來自資料傳輸。AWS 對出站流量收費(進站免費),swyx 查到 5PB 的出站費用約 23 萬美元。關鍵是,每次訓練都需要把資料拉出來一次。如果你跑多輪訓練,傳輸成本就會成倍增長。而且影片模型的訓練比語言模型更容易受到 I/O 瓶頸的限制,因為影片資料的讀取量遠大於文字。Cosmos 團隊在 I/O 優化上花了大量功夫才避免訓練被資料載入速度卡住。這些隱性成本,在多數人討論 AI 訓練開銷時很少被提起。
GPU 端的成本反倒沒有想像中那麼極端。Ethan 的觀察是,影片模型訓練的 GPU 成本大致和中等規模的語言模型相當。開源的影片模型 LTX 有 190 億個稠密參數,MoE(混合專家)架構的版本可能達到 200 億活躍參數、1000 億總參數。Cosmos 的訓練資料規模是數十兆個視覺 token。這些數字和中大型語言模型處於同一個量級。這打破了一個常見的誤解:很多人以為影片模型的訓練成本比語言模型貴上好幾個數量級,但實際上兩者的 GPU 花費在同一個區間。
推論端的加速則是讓影片 AI 走進生產環境的關鍵。基礎的擴散模型需要 100 到 1000 步去噪才能生成一張合格的圖片或影片,這在生產環境中完全不可行。步驟蒸餾(Step Distillation)是目前最有效的解決方案:用一個跑完整步驟的「教師模型」來訓練一個只需要 4 到 10 步的「學生模型」。為什麼可行?因為教師模型需要建模整個網際網路的圖片和影片分佈,這極其複雜。但學生模型只需要建模教師模型的輸出分佈,而一個模型的輸出分佈遠比整個網際網路簡單。Cosmos 的生產模型跑 4 步或 8 步就夠了,簡單的圖片到圖片轉換任務甚至只要 1 步。GAN(生成對抗網路)可以說是步驟蒸餾的鼻祖,因為它從一開始就是一步生成。現代系統通常結合步驟蒸餾、一致性模型和分佈匹配蒸餾,把推論速度壓到可商用的範圍。
影片 Agent:語言模型指揮一切
如果目前的影片生成是「擴散模型獨挑大樑」,那 Ethan 描繪的下一步是「語言模型指揮擴散模型作為工具之一」。影片 Agent 的概念是:一個語言推理模型作為中樞,根據需求呼叫擴散模型生成片段,用 FFmpeg 剪輯拼接,用 Photoshop 風格的工具做精細修改,然後評估結果、決定是否需要重新生成或調整。這和把所有期望塞進一個 prompt 然後希望擴散模型一次搞定,是完全不同的思路。
Grok Imagine 的 Agent 測試版已經在嘗試這個方向,透過多步工具呼叫來生成較長的影片,而不是依賴單次擴散。Ethan 將這個演進比作程式輔助工具的發展路徑:從 GitHub Copilot 的逐行補全,到 Codex 的函式生成,再到 Claude Code 這種全自動的程式 Agent。影片生成正在走同一條路。他預測到 2026 年底,影片 Agent 會跨過品質門檻,能夠生成可用於廣告投放的商業級影片。一旦品質到位,企業端的預算就會大量湧入,因為影片廣告的商業價值遠高於簡單的圖片生成。
更遠的未來,Ethan 甚至把這個邏輯延伸到了機器人領域。他認為「物理 AI」的問題,可能最終會被一個擁有強大影片能力的語言模型所解決。一旦模型能使用電腦並精確理解螢幕的未來狀態,機器人就可能成為這個強大 AI 使用的「工具」之一,而不是需要從零開發的獨立系統。這顛覆了把機器人視為 AI 終極目標的主流敘事,把機器人重新定位為語言驅動的影片智慧的下游應用。
影片 AI 正在經歷一場安靜但深刻的轉變:從「一個模型生成一段影片」的單點突破,走向「語言模型指揮多種工具生成完整體驗」的系統工程。而世界模型和生成式 UI 的願景,則描繪了這條路的終點:一個由 AI 即時生成的、完全個人化的數位世界。這個終點離我們還有多遠,取決於推論成本的下降速度和上下文管理的技術突破。但方向已經很清楚了。