AI 技術前沿

「擴散模型其實很笨」：前 xAI 工程師揭露，影片 AI 的真正智慧來自語言模型

前 xAI 工程師 Ethan He 分享三個月從零打造 Grok Imagine 影音生成模型的實戰經驗，並提出一個出乎業界意料的觀點：如今影片生成模型的品質提升，主要來自語言模型端的進步，包括 Prompt Rewriter 和 Agent 式工具呼叫，而非擴散技術本身的架構突破。

2026 年 6 月 2 日 · 來源： Latent Space

「擴散模型其實很笨」：前 xAI 工程師揭露，影片 AI 的真正智慧來自語言模型

本文整理自《Latent Space》2026 年 6 月播出的單集。

一個出乎意料的大膽宣稱

「影片模型的視覺智慧，其實大部分來自語言。」Ethan He 在 Latent Space Podcast 上開門見山丟出這個觀點。他曾在 NVIDIA 主導 Cosmos 世界模型的開發，後來加入 xAI，帶領小團隊在三個月內從零打造出 Grok Imagine 0.9。這個被他稱為「首個大規模部署的音頻影片聯合生成模型」的產品，讓他有資格說出這句讓人意想不到的話。在多數人的認知裡，影片生成模型的進步應該來自擴散技術的突破，但 Ethan 認為情況恰好相反。他觀察到，自從擴散模型技術趨於成熟之後，每一次影片模型品質的明顯提升，幾乎都可以追溯到語言模型端的改進，而不是擴散架構本身的變化。

這個觀點的背後是一段密集的實戰經歷。Ethan 的職涯橫跨機器學習的多個世代：從 ResNet 時代與何愷明（Kaiming He）等人共事的電腦視覺研究，到 Facebook AI Research 在楊立昆（Yann LeCun）指導下的自監督學習，再到 NVIDIA 的大規模模型訓練（Megatron-MoE，在百億到兆級參數的規模下達到 40% MFU），最後是 Cosmos 世界模型和 xAI 的 Grok Imagine。正是這段跨越多個範式轉換的經歷，讓他得出了這個看似激進卻有扎實根據的結論。

三個月從零到一：xAI 的速度密碼

2025 年中，Ethan 加入 xAI。當時那裡沒有基礎設施，沒有資料，也沒有模型。一個精簡的工程團隊，在三個月內就交付了 Grok Imagine 0.9。這個速度即使在以「快」著稱的 AI 圈也令人驚訝。Ethan 將這個成就歸功於幾個關鍵因素。首先是人才密度，每位團隊成員都實力堅強，直接與高層溝通，不需要層層匯報。其次是 xAI 既有的資料和模型基礎設施，雖然影片團隊是從零開始，但底層的訓練框架已經相當成熟。最重要的是，這是 Ethan 第二次做這件事。一年前在 NVIDIA 打造 Cosmos 的經驗，讓他對整個流程有了完整的藍圖。

在 Ethan 的觀察中，模型開發最重要的變數不是演算法的創新，而是迭代速度。他衡量團隊效率的核心指標只有一個：每天能完成幾個完整的訓練循環？一個循環包括取得新資料、設計新演算法、在較小規模上訓練、然後評估結果。基礎設施越強、算力越充裕，這個循環就轉得越快，發現問題的機會也越多。他坦言，大部分品質提升其實不是來自新演算法的突破，而是在資料管線和訓練管線中找到微小的 bug 並修正。「這聽起來很無聊，」他說，「但那些小修正才是品質最大幅提升的來源。」

xAI 的文化可以用三句話概括：動作要快，專注建造，沒有目標太大膽。Ethan 描述了一種基於第一原理的時程規劃方式。不是拿傳統的軟體開發經驗來估算時間，而是從物理限制出發：資料取得的速度、模型訓練的迭代時間、GPU 擴展能帶來的加速、人工標注資料的回傳週期。把這些變數組合起來，就能算出理論上的最短天數。然後就按那個天數去執行。這種思維方式讓三個月的時間表從「不可能」變成了「剛好夠」。

隨著 2025 年底程式模型能力的飛躍，算力可能再次成為瓶頸。Ethan 回憶，2025 年中的程式模型還不夠穩定，能快速生成大量程式碼，卻常常產出難以維護的「義大利麵條式」程式碼。但到了 2025 年 12 月，情況完全不同了。過去要花好幾週才能實作的新演算法或合成資料生成管線，現在幾小時就能搞定。這意味著研究者能更快地把想法變成實驗，但前提是手上要有足夠的 GPU 來跑所有這些實驗。算力，又變回了那個卡住一切的關鍵資源。

影片模型的真實技術堆疊

理解影片模型為什麼需要語言模型，得先搞清楚影片模型是怎麼訓練的。第一步，也是最容易被忽略的一步，是合成標注資料。網路上的影片並不會自帶精確的文字描述。一支拍攝山景的影片，YouTube 標題可能只寫著「今天好開心」，兩者毫無關聯。所以訓練影片生成模型的第一件事，就是為所有影片生成高品質的文字配對。在 NVIDIA Cosmos 的時候，團隊給人工標注員一個明確的指令：描述這段影片，詳細到一個看不見的人光讀文字就能在腦中重建畫面。每個物體、每個角色、每段互動、每句對話，全部都要寫進去。等累積到足夠品質的人工標注後，才能訓練 VLM（視覺語言模型）來接手大規模的自動標注。

第二步是訓練 VAE（變分自編碼器）。直接在原始像素上訓練 Transformer 是不可能的事，因為一張 1000×1000 的圖片就是一百萬個像素 token，遠超任何 Transformer 的處理能力。VAE 的做法是把圖片分割成小區塊（例如 16×16），然後把每個區塊壓縮成一個連續的向量。這套壓縮方式類似 Vision Transformer 的 patch 概念，只是這裡的目標是建立一個生成模型能有效學習的潛在空間。Ethan 特別提到，VAE 的品質直接決定了後續模型能不能訓起來。設計不良的 VAE，即使壓縮比很高，產生的潛在空間可能讓後續模型根本學不起來。有人嘗試過直接用 MP4 壓縮編碼作為 token，但那種潛在表示對 Transformer 來說幾乎無法理解。

第三步才是訓練擴散 Transformer。有了 VAE 壓縮後的潛在空間 token 和語言 token，擴散 Transformer 的訓練過程其實和語言 Transformer 非常類似。核心差異在於去噪過程：對視覺 token 加入隨機噪聲，訓練模型把噪聲去除、還原出乾淨的 token。推論時，模型從百分之百的純噪聲開始，一步步去噪，最終生成圖片或影片。

但這裡有一個關鍵的建構順序：必須先訓練圖片模型，再用它作為影片模型的基礎。原因很實際。圖片模型的訓練成本遠低於影片模型，因為同樣的預算能訓練十億張圖片配對，卻只能訓練遠少得多的影片配對。而擴散模型對語言的理解完全來自文字和視覺的對應關係。如果只用少量影片訓練，模型接觸到的語言 token 就不夠多，對人類意圖的理解就不夠深。先訓練一個強大的圖片擴散模型，再用它的權重來初始化影片模型，讓影片模型從一開始就具備基本的語言理解能力。這是業界的標準做法。

語言模型才是影片生成的大腦

理解了技術堆疊之後，Ethan 的核心論點就變得更有說服力了。在 Cosmos 的架構中，有一個「Prompt Rewriter」（提示詞重寫器），用的是 Llama 或 Mixtral 這類大型語言模型，參數量比 Cosmos 的 7B 影片擴散模型還要大。它的任務是把使用者簡短的輸入（比如「一隻貓」）展開成極為詳細的場景描述，然後才交給擴散模型執行。

為什麼需要這一步？因為擴散模型會照字面意思執行指令。如果你只輸入「一隻貓」，它就會生成一隻貓在白色背景上，因為你沒描述背景。貓不會動，因為你沒描述動作。Ethan 用了一個很直接的形容：「擴散模型其實很笨，它們會把輸入的指令照字面理解。」真正讓影片看起來精采的，是語言模型把簡單指令擴展成豐富描述的能力。光是加入 Prompt Rewriter 這一步，就能在不做任何聯合訓練的情況下，大幅提升生成品質。

GPT Image 就是一個很好的例子。使用者可能要等三分鐘才能拿到一張圖，但這三分鐘的大部分時間不是花在生成像素上，而是花在語言模型的思考、推理和 Agent 式的工具呼叫上。如果你要求生成「今天的新聞」配圖，系統很可能先上網抓取當天的新聞，然後處理、消化、規劃版面，最後才呼叫擴散模型來生成圖片。圖片生成本身只是最後一個步驟。Ethan 把這個趨勢推到更遠：他預測到 2026 年底，「影片 Agent」會達到可用於商業廣告的品質門檻。語言模型作為指揮中心，把擴散模型當成工具之一，同時調用 FFmpeg、Photoshop 等傳統影片編輯工具，透過多步驟迭代來生成長篇影片。這就像程式開發從 GitHub Copilot 的自動補全，進化到 Claude Code 這種全自動 Agent 的過程。

Grok Imagine 0.9：音頻影片聯合生成的獨特挑戰

Grok Imagine 0.9 不只是影片模型，它同時生成音頻和影片。這帶來了一組獨特的技術挑戰。最核心的問題是跨模態對齊。現有的 VLM 大多理解圖片和文字，極少數能理解影片，而幾乎沒有能理解音頻的。語言模型在處理語音方面表現不錯，因為語音本質上是帶有韻律特徵的文字 token。但音樂完全是另一回事，高度連續，無法像語言那樣被拆解成離散的 token 來建模。要為音頻生成合成標注資料也比圖片困難得多。Ethan 的標準和圖片時一樣嚴格：標注必須詳細到一個失聰的人光讀文字就能在腦中重建那段聲音。但現有的多模態模型在描述音樂的節拍、音色和細節方面表現很差，頂多給出「這是一首古典音樂」這種籠統的描述。

另一個關鍵挑戰是時間對齊。文字和圖片之間的對應是鬆散的，一段描述可以對應整張圖片，不需要精確到某個時間點。但音頻和影片之間需要逐幀對齊：某個音符必須精確對應到特定的影格。這種時間感知是語言模型天生缺乏的能力。Ethan 舉了一個有趣的例子：如果你問語言模型完成一個任務要多久，它可能會說「大概 12 小時」，結果一小時後就回報說「我已經花了兩天」。語言模型對時間的感知來自訓練語料中人類對時間的描述，而不是真正的時間意識。影片模型需要的恰恰是這種精確的時間感知，這也是 Grok Imagine 0.9 最需要突破的技術難關之一。

從影片轉身語言：一個研究者的自我革命

Ethan 最終離開了 xAI，原因很直接：他想做的研究，在 xAI 當時的優先順序下無法推進。而那個研究方向，正是他從 Grok Imagine 的經驗中得出的結論：語言模型本身。如果影片模型品質的真正瓶頸已經從擴散技術轉移到了語言模型，那他應該去直接解決語言模型的問題。

他特別關注的是語言模型的上下文管理。目前的 Agent 框架（包括 Claude Code 這類工具）都依賴大量的啟發式規則來管理上下文：裁剪工具呼叫結果、壓縮歷史對話、注入時間戳。Ethan 認為這些手工設計的規則最終都會被模型本身學會。未來的語言模型會意識到自己剩餘的上下文長度，自行決定什麼時候該壓縮、什麼時候該丟棄，甚至可能在推論時動態修改自己的 Agent 框架程式碼。這個預測如果成真，對整個 AI Agent 生態的影響將會非常深遠。

回頭看 Ethan 的職涯，從電腦視覺到自監督學習，從大規模訓練到影片生成，再到語言模型，每一次都是看似巨大的跨越。但他認為，機器學習領域內的轉換遠比人們想像的容易，因為訓練大型模型的核心原則是通用的。「人們以為自己必須待在一個子領域裡，」他說，「但事實上，跨越比你想的要簡單得多。」這句話本身，可能就是他給這個快速變動的領域最好的職涯建議。