NVIDIA 范麟熙:LLM 的三步成功方程式,我要原封不動搬進機器人
NVIDIA 機器人團隊負責人范麟熙在 Sequoia AI Ascent 2026 提出「Great Parallel」戰略,主張把大語言模型的成功路徑完整複製到機器人領域。他的新模型架構 World Action Models 將視覺和動作提升為第一公民,取代以語言為核心的舊架構,讓機器人能透過「做夢」來學習物理世界的規則。

本文整理自 Sequoia Capital 2026 年 4 月舉辦的 AI Ascent 活動演講。
{{< youtube 3Y8aq_ofEVs >}}
從 DGX-1 簽名到機器人終局
2016 年夏天,在紅杉資本(Sequoia Capital)的辦公室裡,一個穿著亮皮夾克的男人扛著一大塊金屬走進來。他在上面寫著:「獻給 Elon 和 OpenAI 團隊,這是世界第一台 DGX-1,致未來的運算與人類。」那個人是黃仁勳(Jensen Huang)。而在場搶著在 DGX-1 上簽名的實習生裡,有一個叫范麟熙(Jim Fan)。另一個簽名的人是 Andrej Karpathy。范麟熙回憶:「當時我根本不知道自己簽下了什麼。」
十年後的 2026 年 4 月,范麟熙以 NVIDIA AI 總監暨傑出研究科學家的身份,回到紅杉資本的 AI Ascent 舞台。他現在領導 NVIDIA 的 GEAR Lab(Generalist Embodied Agent Research),共同主導 Project GR00T 人形機器人基礎模型計畫。他是李飛飛(Fei-Fei Li)在史丹佛指導的博士生,做出了 MineDojo(NeurIPS 2022 傑出論文獎)和 Voyager(首個在 Minecraft 中自主探索的 LLM Agent)。這次他帶回來的訊息很直接:大語言模型的人已經在開派對了,機器人也該上桌了。
他提出的戰略叫做「Great Parallel」(大平行)。這個名字已經透露了核心思路:LLM 的成功路徑已經被驗證,與其發明新方法,不如把這套方程式原封不動搬進機器人。「如果打不過他們,就加入他們」,范麟熙在台上半開玩笑地說。但他接下來講了二十分鐘的技術細節,證明這不只是口號。
LLM 的三步方程式,直接複製貼上
范麟熙把過去六年 LLM 的發展拆成三個跳躍。2020 年的 GPT-3 證明了預訓練的威力:透過預測下一個 token,模型自動學會了文法規則和語言的形狀。2022 年的 InstructGPT 帶來了監督式微調,把模型的通用能力對齊到實際有用的任務上。再到 2024 年的 o1,強化學習讓模型的推理能力超越了單純模仿人類。三步,六年,從勉強能寫句子到自主做研究。
他要在機器人領域複製這三步,而且一步都不改。第一步,不是預測下一個 token,而是預測下一個「物理世界狀態」。模型要學的不是文法,而是物理:重力怎麼拉、光線怎麼折射、因果關係怎麼運作。第二步,透過「動作微調」(action fine-tuning),把模型模擬出的所有可能未來狀態,收束到對真實機器人有用的那一小部分。第三步,用強化學習走完最後一哩路,把成功率從「能用」推到「可靠」。
這個框架聽起來抽象,但范麟熙用了一個讓全場都笑了的例子來具體化。他秀出一段 Sora 生成的影片:一隻貓在監視器畫面裡彈班卓琴。畫面荒謬到讓人覺得 AI 影片生成不過是網路迷因的素材。「但你仔細看」,他話鋒一轉,「這些影片模型在預測下一堆像素的過程中,自己學會了重力、浮力、光線反射和折射。沒有人寫了任何物理公式,物理是從規模中『湧現』出來的。」換句話說,影片生成模型不只是在做內容創作,它們其實已經在學物理了,只是沒有人這樣用它們而已。
語言不該是「老大」:VLA 模型的根本問題
過去三年,機器人 AI 領域被一類叫做 VLA(Vision-Language-Action,視覺語言動作)的模型主導。Google 的 RT-2、NVIDIA 自家的 Groot 早期版本,都屬於這個範疇。基本做法是:先有一個強大的視覺語言模型做基座,然後在上面接一個動作輸出頭。聽起來合理,用語言理解來驅動機器人行動,但范麟熙認為這個架構有根本性的設計缺陷。
問題出在參數的分配。VLA 模型裡,最大量的參數被分配給語言處理。語言是第一公民,視覺其次,動作排最後。范麟熙說,這些模型「在錯誤的地方頭重腳輕」。它們擅長理解名詞和知識,但對物理和動詞的處理能力先天不足。他用原始 VLA 論文裡的一個經典展示來說明:「把可樂罐移到泰勒絲的照片旁邊。」模型沒見過泰勒絲的照片也能成功辨認並完成任務,泛化能力確實厲害。但仔細想想,這種能力本質上是語言和視覺的匹配,不是物理操作的能力。把東西從 A 移到 B 旁邊,是機器人能做的最簡單的任務之一。
真正困難的是物理。摺衣服時布料會變形,手指需要即時調整力道。倒水時液體的流動取決於角度、速度和容器形狀。組裝精密零件時,公差只有幾微米。這些任務需要的不是「知道泰勒絲是誰」,而是深刻理解物理世界的運作規則。把最多的參數分配給語言處理,就像讓一個百科全書專家去當體操選手一樣,知識豐富但身體協調性不行。
DreamZero:會做夢的機器人策略模型
范麟熙提出的替代方案叫做 WAM(World Action Models,世界動作模型)。WAM 把架構的優先序翻轉過來:視覺和動作是第一公民,語言退居輔助角色。他的第一個 WAM 模型叫 DreamZero,做的事情用一句話就能說明:它不只預測下一步該怎麼動,而是同時「做夢」,預測接下來幾秒鐘的物理世界會變成什麼樣子。
這裡的技術關鍵是「聯合解碼」。傳統的機器人策略模型是:看到當前畫面,輸出動作指令,就結束了。DreamZero 不一樣,它同時輸出兩樣東西:未來幾秒的世界畫面,以及對應的動作序列。這行得通是因為馬達動作本身就是高維度的連續訊號,格式上和影片的像素流很像,可以用同一套解碼器一起渲染。
這個設計帶來一個很實用的副產品。當機器人在執行任務時,研究人員可以同步觀看它正在「做的夢」,像是看到機器人腦中的想像。兩者之間的相關性非常緊密,范麟熙用一句話概括:「影片預測對了,動作就對了。影片出現幻覺,動作就失敗。」這讓偵錯變得直覺。如果機器人搞砸了一個任務,你不用去分析複雜的動作向量,直接看它做的夢就知道哪裡出了問題。
更令人驚訝的是 DreamZero 的零樣本泛化能力。因為它學會的是物理規律而不是特定任務的套路,所以遇到訓練時從未見過的任務和動詞,也能成功執行。范麟熙的團隊做了一件很有趣的事:他們推著機器人在實驗室裡到處走,隨便在提示框裡打各種指令,看它怎麼反應。DreamZero 不是每個任務都能完美完成,但它在嘗試做對每一個動作的「形狀」。范麟熙把這比喻為機器人界的 GPT-2:不夠強大到能可靠部署,但已經展現出正確的能力方向。方向對了,剩下的就是規模的問題。
從「預測文字」到「預測物理」的典範轉移
范麟熙在台上為 VLA 模型舉行了一場半認真的「默哀儀式」,宣布它們的時代結束了。「你們服務得很好,安息吧。World Action Models 萬歲。」這當然帶有表演成分,但背後的技術邏輯值得認真看待。
VLA 模型的核心假設是:語言理解能力可以遷移到物理操作能力。這在簡單任務上成立,因為簡單的物理操作可以被語言描述得足夠精確。「拿起杯子」「推開抽屜」,這些動作的語義和物理之間沒有太大的鴻溝。但當任務的物理複雜度上升,語言描述就開始力不從心了。你很難用語言精確描述「像人類一樣流暢地摺衣服」所需的每一個手指動作、力道變化和布料摺疊的時機。這些是「動詞」的問題,而 VLA 模型把太多資源花在了「名詞」上。
WAM 模型走了不同的路。它不試圖用語言去理解物理,而是直接從像素學習物理。透過預測未來的世界狀態,模型被迫在內部建立起重力、摩擦力、物體形變的表徵,這些是任何物理操作的底層規則。語言在 WAM 裡變成了「任務指定器」:告訴模型該做什麼,但怎麼做完全由物理理解來驅動。就像你告訴一個熟練的廚師「切洋蔥」,你不需要描述每一刀的角度和力道,廚師的手自然知道怎麼做。
我的觀察:Great Parallel 的真正含義
范麟熙這場演講最有意思的地方,不是任何單一的技術突破,而是他提出的方法論轉移。Great Parallel 的本質是:機器人 AI 不需要從頭摸索自己的方法論,它可以站在 LLM 六年積累的基礎上。預訓練、微調、強化學習,這三步在語言領域已經被反覆驗證,每一步的陷阱和最佳實踐都有大量經驗可以參考。把同樣的框架搬到物理世界,不是偷懶,是聰明。
這讓我想到一個更大的趨勢。過去幾年,AI 的基礎能力一直在「理解符號」這個維度上突飛猛進。LLM 征服了文字,多模態模型征服了圖像和影片。但物理世界一直是 AI 的盲區。你可以用 GPT-4 寫出一篇關於如何摺衣服的完美教學文章,但它沒辦法實際摺一件衣服。WAM 和 DreamZero 代表的,是 AI 能力開始從「理解符號」擴展到「理解物理」的起點。
如果 Great Parallel 的邏輯成立,機器人 AI 的進展速度可能會比大多數人預期的快得多。LLM 從 GPT-2 到 GPT-4 只花了四年。DreamZero 如果真的是機器人的 GPT-2 時刻,那四年後的機器人可能會讓今天的我們大吃一驚。當然,物理世界的複雜度遠高於語言,直接套用 LLM 的時間表不一定準確。但方向已經很清楚了,值得密切關注的不是「會不會發生」,而是「多快發生」。