「擴散模型其實很笨」:前 xAI 工程師揭露,影片 AI 的真正智慧來自語言模型
前 xAI 工程師 Ethan He 分享三個月從零打造 Grok Imagine 影音生成模型的實戰經驗,並提出一個出乎業界意料的觀點:如今影片生成模型的品質提升,主要來自語言模型端的進步,包括 Prompt Rewriter 和 Agent 式工具呼叫,而非擴散技術本身的架構突破。

本文整理自《Latent Space》2026 年 6 月播出的單集。
{{< youtube jPtQlILfkhA >}}
一個出乎意料的大膽宣稱
「影片模型的視覺智慧,其實大部分來自語言。」Ethan He 在 Latent Space Podcast 上開門見山丟出這個觀點。他曾在 NVIDIA 主導 Cosmos 世界模型的開發,後來加入 xAI,帶領小團隊在三個月內從零打造出 Grok Imagine 0.9。這個被他稱為「首個大規模部署的音頻影片聯合生成模型」的產品,讓他有資格說出這句讓人意想不到的話。在多數人的認知裡,影片生成模型的進步應該來自擴散技術的突破,但 Ethan 認為情況恰好相反。他觀察到,自從擴散模型技術趨於成熟之後,每一次影片模型品質的明顯提升,幾乎都可以追溯到語言模型端的改進,而不是擴散架構本身的變化。
這個觀點的背後是一段密集的實戰經歷。Ethan 的職涯橫跨機器學習的多個世代:從 ResNet 時代與何愷明(Kaiming He)等人共事的電腦視覺研究,到 Facebook AI Research 在楊立昆(Yann LeCun)指導下的自監督學習,再到 NVIDIA 的大規模模型訓練(Megatron-MoE,在百億到兆級參數的規模下達到 40% MFU),最後是 Cosmos 世界模型和 xAI 的 Grok Imagine。正是這段跨越多個範式轉換的經歷,讓他得出了這個看似激進卻有扎實根據的結論。
三個月從零到一:xAI 的速度密碼
2025 年中,Ethan 加入 xAI。當時那裡沒有基礎設施,沒有資料,也沒有模型。一個精簡的工程團隊,在三個月內就交付了 Grok Imagine 0.9。這個速度即使在以「快」著稱的 AI 圈也令人驚訝。Ethan 將這個成就歸功於幾個關鍵因素。首先是人才密度,每位團隊成員都實力堅強,直接與高層溝通,不需要層層匯報。其次是 xAI 既有的資料和模型基礎設施,雖然影片團隊是從零開始,但底層的訓練框架已經相當成熟。最重要的是,這是 Ethan 第二次做這件事。一年前在 NVIDIA 打造 Cosmos 的經驗,讓他對整個流程有了完整的藍圖。
在 Ethan 的觀察中,模型開發最重要的變數不是演算法的創新,而是迭代速度。他衡量團隊效率的核心指標只有一個:每天能完成幾個完整的訓練循環?一個循環包括取得新資料、設計新演算法、在較小規模上訓練、然後評估結果。基礎設施越強、算力越充裕,這個循環就轉得越快,發現問題的機會也越多。他坦言,大部分品質提升其實不是來自新演算法的突破,而是在資料管線和訓練管線中找到微小的 bug 並修正。「這聽起來很無聊,」他說,「但那些小修正才是品質最大幅提升的來源。」
xAI 的文化可以用三句話概括:動作要快,專注建造,沒有目標太大膽。Ethan 描述了一種基於第一原理的時程規劃方式。不是拿傳統的軟體開發經驗來估算時間,而是從物理限制出發:資料取得的速度、模型訓練的迭代時間、GPU 擴展能帶來的加速、人工標注資料的回傳週期。把這些變數組合起來,就能算出理論上的最短天數。然後就按那個天數去執行。這種思維方式讓三個月的時間表從「不可能」變成了「剛好夠」。
隨著 2025 年底程式模型能力的飛躍,算力可能再次成為瓶頸。Ethan 回憶,2025 年中的程式模型還不夠穩定,能快速生成大量程式碼,卻常常產出難以維護的「義大利麵條式」程式碼。但到了 2025 年 12 月,情況完全不同了。過去要花好幾週才能實作的新演算法或合成資料生成管線,現在幾小時就能搞定。這意味著研究者能更快地把想法變成實驗,但前提是手上要有足夠的 GPU 來跑所有這些實驗。算力,又變回了那個卡住一切的關鍵資源。
影片模型的真實技術堆疊
理解影片模型為什麼需要語言模型,得先搞清楚影片模型是怎麼訓練的。第一步,也是最容易被忽略的一步,是合成標注資料。網路上的影片並不會自帶精確的文字描述。一支拍攝山景的影片,YouTube 標題可能只寫著「今天好開心」,兩者毫無關聯。所以訓練影片生成模型的第一件事,就是為所有影片生成高品質的文字配對。在 NVIDIA Cosmos 的時候,團隊給人工標注員一個明確的指令:描述這段影片,詳細到一個看不見的人光讀文字就能在腦中重建畫面。每個物體、每個角色、每段互動、每句對話,全部都要寫進去。等累積到足夠品質的人工標注後,才能訓練 VLM(視覺語言模型)來接手大規模的自動標注。
第二步是訓練 VAE(變分自編碼器)。直接在原始像素上訓練 Transformer 是不可能的事,因為一張 1000×1000 的圖片就是一百萬個像素 token,遠超任何 Transformer 的處理能力。VAE 的做法是把圖片分割成小區塊(例如 16×16),然後把每個區塊壓縮成一個連續的向量。這套壓縮方式類似 Vision Transformer 的 patch 概念,只是這裡的目標是建立一個生成模型能有效學習的潛在空間。Ethan 特別提到,VAE 的品質直接決定了後續模型能不能訓起來。設計不良的 VAE,即使壓縮比很高,產生的潛在空間可能讓後續模型根本學不起來。有人嘗試過直接用 MP4 壓縮編碼作為 token,但那種潛在表示對 Transformer 來說幾乎無法理解。
第三步才是訓練擴散 Transformer。有了 VAE 壓縮後的潛在空間 token 和語言 token,擴散 Transformer 的訓練過程其實和語言 Transformer 非常類似。核心差異在於去噪過程:對視覺 token 加入隨機噪聲,訓練模型把噪聲去除、還原出乾淨的 token。推論時,模型從百分之百的純噪聲開始,一步步去噪,最終生成圖片或影片。
但這裡有一個關鍵的建構順序:必須先訓練圖片模型,再用它作為影片模型的基礎。原因很實際。圖片模型的訓練成本遠低於影片模型,因為同樣的預算能訓練十億張圖片配對,卻只能訓練遠少得多的影片配對。而擴散模型對語言的理解完全來自文字和視覺的對應關係。如果只用少量影片訓練,模型接觸到的語言 token 就不夠多,對人類意圖的理解就不夠深。先訓練一個強大的圖片擴散模型,再用它的權重來初始化影片模型,讓影片模型從一開始就具備基本的語言理解能力。這是業界的標準做法。
語言模型才是影片生成的大腦
理解了技術堆疊之後,Ethan 的核心論點就變得更有說服力了。在 Cosmos 的架構中,有一個「Prompt Rewriter」(提示詞重寫器),用的是 Llama 或 Mixtral 這類大型語言模型,參數量比 Cosmos 的 7B 影片擴散模型還要大。它的任務是把使用者簡短的輸入(比如「一隻貓」)展開成極為詳細的場景描述,然後才交給擴散模型執行。
為什麼需要這一步?因為擴散模型會照字面意思執行指令。如果你只輸入「一隻貓」,它就會生成一隻貓在白色背景上,因為你沒描述背景。貓不會動,因為你沒描述動作。Ethan 用了一個很直接的形容:「擴散模型其實很笨,它們會把輸入的指令照字面理解。」真正讓影片看起來精采的,是語言模型把簡單指令擴展成豐富描述的能力。光是加入 Prompt Rewriter 這一步,就能在不做任何聯合訓練的情況下,大幅提升生成品質。
GPT Image 就是一個很好的例子。使用者可能要等三分鐘才能拿到一張圖,但這三分鐘的大部分時間不是花在生成像素上,而是花在語言模型的思考、推理和 Agent 式的工具呼叫上。如果你要求生成「今天的新聞」配圖,系統很可能先上網抓取當天的新聞,然後處理、消化、規劃版面,最後才呼叫擴散模型來生成圖片。圖片生成本身只是最後一個步驟。Ethan 把這個趨勢推到更遠:他預測到 2026 年底,「影片 Agent」會達到可用於商業廣告的品質門檻。語言模型作為指揮中心,把擴散模型當成工具之一,同時調用 FFmpeg、Photoshop 等傳統影片編輯工具,透過多步驟迭代來生成長篇影片。這就像程式開發從 GitHub Copilot 的自動補全,進化到 Claude Code 這種全自動 Agent 的過程。
Grok Imagine 0.9:音頻影片聯合生成的獨特挑戰
Grok Imagine 0.9 不只是影片模型,它同時生成音頻和影片。這帶來了一組獨特的技術挑戰。最核心的問題是跨模態對齊。現有的 VLM 大多理解圖片和文字,極少數能理解影片,而幾乎沒有能理解音頻的。語言模型在處理語音方面表現不錯,因為語音本質上是帶有韻律特徵的文字 token。但音樂完全是另一回事,高度連續,無法像語言那樣被拆解成離散的 token 來建模。要為音頻生成合成標注資料也比圖片困難得多。Ethan 的標準和圖片時一樣嚴格:標注必須詳細到一個失聰的人光讀文字就能在腦中重建那段聲音。但現有的多模態模型在描述音樂的節拍、音色和細節方面表現很差,頂多給出「這是一首古典音樂」這種籠統的描述。
另一個關鍵挑戰是時間對齊。文字和圖片之間的對應是鬆散的,一段描述可以對應整張圖片,不需要精確到某個時間點。但音頻和影片之間需要逐幀對齊:某個音符必須精確對應到特定的影格。這種時間感知是語言模型天生缺乏的能力。Ethan 舉了一個有趣的例子:如果你問語言模型完成一個任務要多久,它可能會說「大概 12 小時」,結果一小時後就回報說「我已經花了兩天」。語言模型對時間的感知來自訓練語料中人類對時間的描述,而不是真正的時間意識。影片模型需要的恰恰是這種精確的時間感知,這也是 Grok Imagine 0.9 最需要突破的技術難關之一。
從影片轉身語言:一個研究者的自我革命
Ethan 最終離開了 xAI,原因很直接:他想做的研究,在 xAI 當時的優先順序下無法推進。而那個研究方向,正是他從 Grok Imagine 的經驗中得出的結論:語言模型本身。如果影片模型品質的真正瓶頸已經從擴散技術轉移到了語言模型,那他應該去直接解決語言模型的問題。
他特別關注的是語言模型的上下文管理。目前的 Agent 框架(包括 Claude Code 這類工具)都依賴大量的啟發式規則來管理上下文:裁剪工具呼叫結果、壓縮歷史對話、注入時間戳。Ethan 認為這些手工設計的規則最終都會被模型本身學會。未來的語言模型會意識到自己剩餘的上下文長度,自行決定什麼時候該壓縮、什麼時候該丟棄,甚至可能在推論時動態修改自己的 Agent 框架程式碼。這個預測如果成真,對整個 AI Agent 生態的影響將會非常深遠。
回頭看 Ethan 的職涯,從電腦視覺到自監督學習,從大規模訓練到影片生成,再到語言模型,每一次都是看似巨大的跨越。但他認為,機器學習領域內的轉換遠比人們想像的容易,因為訓練大型模型的核心原則是通用的。「人們以為自己必須待在一個子領域裡,」他說,「但事實上,跨越比你想的要簡單得多。」這句話本身,可能就是他給這個快速變動的領域最好的職涯建議。