AI 技術前沿

5 秒影片要 5 萬個 token：從世界模型到生成式 UI，影片 AI 的下一個戰場

前 xAI 工程師 Ethan He 定義世界模型的三大要素：即時、互動、長時序，並描繪生成式 UI 取代傳統介面的願景。從 Flipbook 到 Neural OS 的展示，從十億支影片的儲存成本到步驟蒸餾的推論加速，再到影片 Agent 的商業化預測，深入解析影片 AI 的下一步棋。

2026 年 6 月 2 日 · 來源： Latent Space

5 秒影片要 5 萬個 token：從世界模型到生成式 UI，影片 AI 的下一個戰場

本文整理自《Latent Space》2026 年 6 月播出的單集，為系列第二篇。

Flipbook：一個不存在的網路

想像打開一個瀏覽器，輸入一個網址，看到的頁面、按鈕、文字、圖片全都是 AI 即時生成的。這些網頁從來不存在於任何伺服器上，每一個元素都是影片生成模型在你點擊的瞬間想像出來的。這就是 Flipbook，一個最近引爆討論的實驗性展示。在 Latent Space Podcast 的訪談中，前 xAI 工程師 Ethan He 把 Flipbook 當作他心目中「世界模型終局」的早期雛形。你可以在這個生成式瀏覽器裡探索金字塔的工程原理，每點進一個子頁面，模型就即時生成一個新的知識頁面。所有內容都是虛構的，但看起來完全像真正的網頁。

另一個更激進的展示是 Neural OS，一個由影片模型即時模擬的完整作業系統。你可以在裡面玩 Doom，開 Firefox，所有的像素都是模型生成的，沒有任何真正的軟體在執行。主持人 Vibhu Agarwal 在使用時甚至下意識按了 Cmd+W 想關閉瀏覽器分頁，才發現自己看到的一切都是生成的。和一兩年前那些時間一致性很差的第一人稱射擊遊戲展示相比，Neural OS 的流暢度已經到了讓人混淆虛實的程度。

Ethan 看到的不只是技術展示，而是一個根本性的介面革命。他描繪了一個「生成式 UI」的未來：使用者的意圖直接轉化為像素，跳過傳統的程式碼、編譯、渲染管線。如果你想讓電子郵件的介面像 TikTok 一樣可以左右滑動，或者希望 Instagram 沒有按讚按鈕，只要說出來，擴散模型就能即時生成符合你需求的個人化介面。在他的設想中，未來的架構會是語言模型和程式模型在後端運行確定性的邏輯，擴散模型則作為前端來呈現所有視覺輸出。

當然，這個願景現在還太昂貴。Ethan 自己也算了一筆帳：即使 H100 每月只要 1 美元（目前的全利用率成本約 240 美元），每天用八小時、用 30 天，消費者也不見得願意為此付費。但如果算上推論成本持續下降的趨勢（主持人 swyx 認為語言模型的等效成本下降速度接近每 12 到 18 個月 100 到 1000 倍），這個未來並不遙遠。Ethan 用頻寬的角度來論證：人類接收資訊的最大頻寬是視覺（看影片），輸出資訊的最大頻寬是語音（說話）。所以在神經介面出現之前，語音輸入加上生成式影片輸出，就是人機互動的頻寬上限。

世界模型的三大要素

Flipbook 和 Neural OS 令人驚艷，但離真正的「世界模型」還有多遠？Ethan 提出了一個清晰的三軸定義。第一個軸是互動性：模型必須能有意義地回應鍵盤、滑鼠和語音的輸入。第二個軸是即時性：回應的延遲必須低到使用者感覺不到。第三個軸是長時序：生成的內容不能只有幾秒鐘，要能持續數分鐘甚至數小時並保持一致性。三者同時達標，才算得上世界模型。

即時性的要求因場景而異，差距極大。對於數位人（Digital Human）這類對話式應用，200 毫秒的回應時間勉強可以接受。但如果是電競場景，專業的 CS:GO 玩家要求 300 幀以上的畫面更新率，意味著每一幀的回應時間不能超過 3 毫秒。目前的影片模型離這個目標還非常遠。更棘手的是，影片模型使用的 VAE（變分自編碼器）通常會壓縮時間維度。例如 Wan 2.1 的 VAE 使用 8×8×4 的壓縮比，其中的 4 代表把 4 幀壓縮成一個 token。這在訓練上非常有效率，但代價是模型必須等湊齊 4 幀之後才能輸出，天生就有延遲。如果不壓縮時間維度（也就是逐幀處理），上下文長度立刻膨脹成四倍，讓更長時序的生成變得不可能。

長時序的問題則直接碰撞了上下文長度的物理極限。在 NVIDIA Cosmos 的 token 化方案下，5 秒影片大約產生 5 萬到 6 萬個 token。50 秒就是 50 萬個 token。超過幾分鐘，token 數量就完全失控。目前大部分影片模型只能生成幾秒鐘的片段。有人用「把最後一幀當成下一段的第一幀」的技巧來接力生成，但品質會快速衰退，因為模型只看到一幀的上下文，不知道之前發生了什麼。即使像 Veo 3 這樣使用最後一秒作為條件的做法，延伸幾次之後畫面品質也會明顯下降，角色的聲音和外貌可能在不知不覺間改變。

影片延伸：通往世界模型的中繼站

Ethan 在 xAI 帶領的世界模型小組，第一個實際落地的功能是影片延伸（Video Extension）。和簡單的最後一幀接力不同，Grok Imagine 的影片延伸功能保留了所有先前生成影片的完整歷史上下文。模型知道之前誰在說話、出現了什麼物體、場景的連續性如何，然後基於這些資訊來生成下一段影片。這個功能在創作者社群中非常受歡迎，因為它讓長篇影片的生成第一次變得可行。Ethan 把它視為通往世界模型的一個中間步驟：先解決長時序的問題，再逐步加入即時性和互動性。

但「保留完整歷史」這四個字說起來容易，做起來是一場和 token 數量的戰爭。如果單純把所有歷史影片的 token 都塞進上下文，幾十秒的影片就會把上下文窗口撐爆。目前的解決方案都帶有妥協性質。Frame Pack 這篇論文提出了一種階層式的壓縮策略：最近一秒的畫面保留完整解析度，越久遠的畫面壓縮得越厲害，整體上下文長度被固定在大約六分鐘。Grok Imagine 的另一個功能「Reference-to-Video」則允許使用者上傳最多七張參考圖片（角色、物體、場景），作為生成的條件。這避免了把整段歷史塞進上下文的需要，但 Ethan 坦言這是一種「作弊」：理想狀態下，模型應該自己知道什麼時候需要回頭參考之前的內容，自動從歷史中選取相關的上下文。

Ethan 認為影片模型在長上下文管理方面的研究，其實稍微領先語言模型。因為影片模型更早遭遇到上下文爆炸的問題，被迫更早開始研究解決方案。他把當前的情況比作語言模型 Agent 框架中的各種啟發式規則：裁剪工具呼叫結果、壓縮對話歷史、注入時間戳。這些都是人工設計的規則。而他預測，不論是影片模型還是語言模型，這些啟發式方法最終都會被吸收進模型本身的訓練中，從外掛的工程技巧變成模型內建的能力。

訓練影片模型的真實成本

很少有人公開討論訓練影片模型的經濟學，但 Ethan 在節目中分享了一些讓人印象深刻的數字。光是儲存訓練資料就是一筆驚人的開銷。假設你有十億支影片，每支平均 5MB，總共需要大約 5PB（拍位元組）的儲存空間。以 AWS S3 標準方案計算，主持人 swyx 即時查到的價格是每月約 10 萬美元。但這只是影片本身。你還需要儲存 VAE 壓縮後的潛在特徵，佔用的空間和原始影片差不多，所以總儲存量輕鬆超過數十 PB，每月花費可達數百萬美元。

更大的開銷可能來自資料傳輸。AWS 對出站流量收費（進站免費），swyx 查到 5PB 的出站費用約 23 萬美元。關鍵是，每次訓練都需要把資料拉出來一次。如果你跑多輪訓練，傳輸成本就會成倍增長。而且影片模型的訓練比語言模型更容易受到 I/O 瓶頸的限制，因為影片資料的讀取量遠大於文字。Cosmos 團隊在 I/O 優化上花了大量功夫才避免訓練被資料載入速度卡住。這些隱性成本，在多數人討論 AI 訓練開銷時很少被提起。

GPU 端的成本反倒沒有想像中那麼極端。Ethan 的觀察是，影片模型訓練的 GPU 成本大致和中等規模的語言模型相當。開源的影片模型 LTX 有 190 億個稠密參數，MoE（混合專家）架構的版本可能達到 200 億活躍參數、1000 億總參數。Cosmos 的訓練資料規模是數十兆個視覺 token。這些數字和中大型語言模型處於同一個量級。這打破了一個常見的誤解：很多人以為影片模型的訓練成本比語言模型貴上好幾個數量級，但實際上兩者的 GPU 花費在同一個區間。

推論端的加速則是讓影片 AI 走進生產環境的關鍵。基礎的擴散模型需要 100 到 1000 步去噪才能生成一張合格的圖片或影片，這在生產環境中完全不可行。步驟蒸餾（Step Distillation）是目前最有效的解決方案：用一個跑完整步驟的「教師模型」來訓練一個只需要 4 到 10 步的「學生模型」。為什麼可行？因為教師模型需要建模整個網際網路的圖片和影片分佈，這極其複雜。但學生模型只需要建模教師模型的輸出分佈，而一個模型的輸出分佈遠比整個網際網路簡單。Cosmos 的生產模型跑 4 步或 8 步就夠了，簡單的圖片到圖片轉換任務甚至只要 1 步。GAN（生成對抗網路）可以說是步驟蒸餾的鼻祖，因為它從一開始就是一步生成。現代系統通常結合步驟蒸餾、一致性模型和分佈匹配蒸餾，把推論速度壓到可商用的範圍。

影片 Agent：語言模型指揮一切

如果目前的影片生成是「擴散模型獨挑大樑」，那 Ethan 描繪的下一步是「語言模型指揮擴散模型作為工具之一」。影片 Agent 的概念是：一個語言推理模型作為中樞，根據需求呼叫擴散模型生成片段，用 FFmpeg 剪輯拼接，用 Photoshop 風格的工具做精細修改，然後評估結果、決定是否需要重新生成或調整。這和把所有期望塞進一個 prompt 然後希望擴散模型一次搞定，是完全不同的思路。

Grok Imagine 的 Agent 測試版已經在嘗試這個方向，透過多步工具呼叫來生成較長的影片，而不是依賴單次擴散。Ethan 將這個演進比作程式輔助工具的發展路徑：從 GitHub Copilot 的逐行補全，到 Codex 的函式生成，再到 Claude Code 這種全自動的程式 Agent。影片生成正在走同一條路。他預測到 2026 年底，影片 Agent 會跨過品質門檻，能夠生成可用於廣告投放的商業級影片。一旦品質到位，企業端的預算就會大量湧入，因為影片廣告的商業價值遠高於簡單的圖片生成。

更遠的未來，Ethan 甚至把這個邏輯延伸到了機器人領域。他認為「物理 AI」的問題，可能最終會被一個擁有強大影片能力的語言模型所解決。一旦模型能使用電腦並精確理解螢幕的未來狀態，機器人就可能成為這個強大 AI 使用的「工具」之一，而不是需要從零開發的獨立系統。這顛覆了把機器人視為 AI 終極目標的主流敘事，把機器人重新定位為語言驅動的影片智慧的下游應用。

影片 AI 正在經歷一場安靜但深刻的轉變：從「一個模型生成一段影片」的單點突破，走向「語言模型指揮多種工具生成完整體驗」的系統工程。而世界模型和生成式 UI 的願景，則描繪了這條路的終點：一個由 AI 即時生成的、完全個人化的數位世界。這個終點離我們還有多遠，取決於推論成本的下降速度和上下文管理的技術突破。但方向已經很清楚了。