AI 技術前沿

NVIDIA 范麟熙：LLM 的三步成功方程式，我要原封不動搬進機器人

NVIDIA 機器人團隊負責人范麟熙在 Sequoia AI Ascent 2026 提出「Great Parallel」戰略，主張把大語言模型的成功路徑完整複製到機器人領域。他的新模型架構 World Action Models 將視覺和動作提升為第一公民，取代以語言為核心的舊架構，讓機器人能透過「做夢」來學習物理世界的規則。

2026 年 5 月 12 日 · 來源： Sequoia Capital AI Ascent 2026

本文整理自 Sequoia Capital 2026 年 4 月舉辦的 AI Ascent 活動演講。

從 DGX-1 簽名到機器人終局

2016 年夏天，在紅杉資本（Sequoia Capital）的辦公室裡，一個穿著亮皮夾克的男人扛著一大塊金屬走進來。他在上面寫著：「獻給 Elon 和 OpenAI 團隊，這是世界第一台 DGX-1，致未來的運算與人類。」那個人是黃仁勳（Jensen Huang）。而在場搶著在 DGX-1 上簽名的實習生裡，有一個叫范麟熙（Jim Fan）。另一個簽名的人是 Andrej Karpathy。范麟熙回憶：「當時我根本不知道自己簽下了什麼。」

十年後的 2026 年 4 月，范麟熙以 NVIDIA AI 總監暨傑出研究科學家的身份，回到紅杉資本的 AI Ascent 舞台。他現在領導 NVIDIA 的 GEAR Lab（Generalist Embodied Agent Research），共同主導 Project GR00T 人形機器人基礎模型計畫。他是李飛飛（Fei-Fei Li）在史丹佛指導的博士生，做出了 MineDojo（NeurIPS 2022 傑出論文獎）和 Voyager（首個在 Minecraft 中自主探索的 LLM Agent）。這次他帶回來的訊息很直接：大語言模型的人已經在開派對了，機器人也該上桌了。

他提出的戰略叫做「Great Parallel」（大平行）。這個名字已經透露了核心思路：LLM 的成功路徑已經被驗證，與其發明新方法，不如把這套方程式原封不動搬進機器人。「如果打不過他們，就加入他們」，范麟熙在台上半開玩笑地說。但他接下來講了二十分鐘的技術細節，證明這不只是口號。

LLM 的三步方程式，直接複製貼上

范麟熙把過去六年 LLM 的發展拆成三個跳躍。2020 年的 GPT-3 證明了預訓練的威力：透過預測下一個 token，模型自動學會了文法規則和語言的形狀。2022 年的 InstructGPT 帶來了監督式微調，把模型的通用能力對齊到實際有用的任務上。再到 2024 年的 o1，強化學習讓模型的推理能力超越了單純模仿人類。三步，六年，從勉強能寫句子到自主做研究。

他要在機器人領域複製這三步，而且一步都不改。第一步，不是預測下一個 token，而是預測下一個「物理世界狀態」。模型要學的不是文法，而是物理：重力怎麼拉、光線怎麼折射、因果關係怎麼運作。第二步，透過「動作微調」（action fine-tuning），把模型模擬出的所有可能未來狀態，收束到對真實機器人有用的那一小部分。第三步，用強化學習走完最後一哩路，把成功率從「能用」推到「可靠」。

這個框架聽起來抽象，但范麟熙用了一個讓全場都笑了的例子來具體化。他秀出一段 Sora 生成的影片：一隻貓在監視器畫面裡彈班卓琴。畫面荒謬到讓人覺得 AI 影片生成不過是網路迷因的素材。「但你仔細看」，他話鋒一轉，「這些影片模型在預測下一堆像素的過程中，自己學會了重力、浮力、光線反射和折射。沒有人寫了任何物理公式，物理是從規模中『湧現』出來的。」換句話說，影片生成模型不只是在做內容創作，它們其實已經在學物理了，只是沒有人這樣用它們而已。

語言不該是「老大」：VLA 模型的根本問題

過去三年，機器人 AI 領域被一類叫做 VLA（Vision-Language-Action，視覺語言動作）的模型主導。Google 的 RT-2、NVIDIA 自家的 Groot 早期版本，都屬於這個範疇。基本做法是：先有一個強大的視覺語言模型做基座，然後在上面接一個動作輸出頭。聽起來合理，用語言理解來驅動機器人行動，但范麟熙認為這個架構有根本性的設計缺陷。

問題出在參數的分配。VLA 模型裡，最大量的參數被分配給語言處理。語言是第一公民，視覺其次，動作排最後。范麟熙說，這些模型「在錯誤的地方頭重腳輕」。它們擅長理解名詞和知識，但對物理和動詞的處理能力先天不足。他用原始 VLA 論文裡的一個經典展示來說明：「把可樂罐移到泰勒絲的照片旁邊。」模型沒見過泰勒絲的照片也能成功辨認並完成任務，泛化能力確實厲害。但仔細想想，這種能力本質上是語言和視覺的匹配，不是物理操作的能力。把東西從 A 移到 B 旁邊，是機器人能做的最簡單的任務之一。

真正困難的是物理。摺衣服時布料會變形，手指需要即時調整力道。倒水時液體的流動取決於角度、速度和容器形狀。組裝精密零件時，公差只有幾微米。這些任務需要的不是「知道泰勒絲是誰」，而是深刻理解物理世界的運作規則。把最多的參數分配給語言處理，就像讓一個百科全書專家去當體操選手一樣，知識豐富但身體協調性不行。

DreamZero：會做夢的機器人策略模型

范麟熙提出的替代方案叫做 WAM（World Action Models，世界動作模型）。WAM 把架構的優先序翻轉過來：視覺和動作是第一公民，語言退居輔助角色。他的第一個 WAM 模型叫 DreamZero，做的事情用一句話就能說明：它不只預測下一步該怎麼動，而是同時「做夢」，預測接下來幾秒鐘的物理世界會變成什麼樣子。

這裡的技術關鍵是「聯合解碼」。傳統的機器人策略模型是：看到當前畫面，輸出動作指令，就結束了。DreamZero 不一樣，它同時輸出兩樣東西：未來幾秒的世界畫面，以及對應的動作序列。這行得通是因為馬達動作本身就是高維度的連續訊號，格式上和影片的像素流很像，可以用同一套解碼器一起渲染。

這個設計帶來一個很實用的副產品。當機器人在執行任務時，研究人員可以同步觀看它正在「做的夢」，像是看到機器人腦中的想像。兩者之間的相關性非常緊密，范麟熙用一句話概括：「影片預測對了，動作就對了。影片出現幻覺，動作就失敗。」這讓偵錯變得直覺。如果機器人搞砸了一個任務，你不用去分析複雜的動作向量，直接看它做的夢就知道哪裡出了問題。

更令人驚訝的是 DreamZero 的零樣本泛化能力。因為它學會的是物理規律而不是特定任務的套路，所以遇到訓練時從未見過的任務和動詞，也能成功執行。范麟熙的團隊做了一件很有趣的事：他們推著機器人在實驗室裡到處走，隨便在提示框裡打各種指令，看它怎麼反應。DreamZero 不是每個任務都能完美完成，但它在嘗試做對每一個動作的「形狀」。范麟熙把這比喻為機器人界的 GPT-2：不夠強大到能可靠部署，但已經展現出正確的能力方向。方向對了，剩下的就是規模的問題。

從「預測文字」到「預測物理」的典範轉移

范麟熙在台上為 VLA 模型舉行了一場半認真的「默哀儀式」，宣布它們的時代結束了。「你們服務得很好，安息吧。World Action Models 萬歲。」這當然帶有表演成分，但背後的技術邏輯值得認真看待。

VLA 模型的核心假設是：語言理解能力可以遷移到物理操作能力。這在簡單任務上成立，因為簡單的物理操作可以被語言描述得足夠精確。「拿起杯子」「推開抽屜」，這些動作的語義和物理之間沒有太大的鴻溝。但當任務的物理複雜度上升，語言描述就開始力不從心了。你很難用語言精確描述「像人類一樣流暢地摺衣服」所需的每一個手指動作、力道變化和布料摺疊的時機。這些是「動詞」的問題，而 VLA 模型把太多資源花在了「名詞」上。

WAM 模型走了不同的路。它不試圖用語言去理解物理，而是直接從像素學習物理。透過預測未來的世界狀態，模型被迫在內部建立起重力、摩擦力、物體形變的表徵，這些是任何物理操作的底層規則。語言在 WAM 裡變成了「任務指定器」：告訴模型該做什麼，但怎麼做完全由物理理解來驅動。就像你告訴一個熟練的廚師「切洋蔥」，你不需要描述每一刀的角度和力道，廚師的手自然知道怎麼做。

我的觀察：Great Parallel 的真正含義

范麟熙這場演講最有意思的地方，不是任何單一的技術突破，而是他提出的方法論轉移。Great Parallel 的本質是：機器人 AI 不需要從頭摸索自己的方法論，它可以站在 LLM 六年積累的基礎上。預訓練、微調、強化學習，這三步在語言領域已經被反覆驗證，每一步的陷阱和最佳實踐都有大量經驗可以參考。把同樣的框架搬到物理世界，不是偷懶，是聰明。

這讓我想到一個更大的趨勢。過去幾年，AI 的基礎能力一直在「理解符號」這個維度上突飛猛進。LLM 征服了文字，多模態模型征服了圖像和影片。但物理世界一直是 AI 的盲區。你可以用 GPT-4 寫出一篇關於如何摺衣服的完美教學文章，但它沒辦法實際摺一件衣服。WAM 和 DreamZero 代表的，是 AI 能力開始從「理解符號」擴展到「理解物理」的起點。

如果 Great Parallel 的邏輯成立，機器人 AI 的進展速度可能會比大多數人預期的快得多。LLM 從 GPT-2 到 GPT-4 只花了四年。DreamZero 如果真的是機器人的 GPT-2 時刻，那四年後的機器人可能會讓今天的我們大吃一驚。當然，物理世界的複雜度遠高於語言，直接套用 LLM 的時間表不一定準確。但方向已經很清楚了，值得密切關注的不是「會不會發生」，而是「多快發生」。