機器人也有 Scaling Law!NVIDIA 用兩萬小時人類影片,首度發現靈巧度的擴展定律
NVIDIA 機器人團隊在 Sequoia AI Ascent 2026 宣布重大發現:機器人的靈巧度存在類似大語言模型的 Scaling Law。透過 EgoScale 方法,用 99.9% 人類第一人稱影片加不到 0.1% 遙控操作資料,就能訓練出高靈巧度的機器人手臂。團隊同時發布神經模擬器 DreamDojo,讓算力直接等於環境和資料。

本文整理自 Sequoia Capital 2026 年 4 月舉辦的 AI Ascent 活動演講。
{{< youtube 3Y8aq_ofEVs >}}
史上最貴的遙控操作資料
NVIDIA 的首席科學家 Bill Dally 親自上陣操作遙控機器人的畫面,被 NVIDIA AI 總監范麟熙(Jim Fan)拿來當演講開場的笑料。「以他的薪資水準來算,這大概是我們資料集裡最昂貴的一筆訓練軌跡了。」笑聲過後,范麟熙話鋒一轉,帶出了機器人領域一個最根本的瓶頸問題:資料從哪裡來?
過去三年,遙控操作(teleoperation)是機器人資料收集的主流方法。VR 頭盔、精心調校的串流延遲、看起來像中世紀刑具一樣複雜的操控裝置。業界投入了大量資金和工程心血。但不管裝置多先進、操作員多熟練,遙控操作有一個無法突破的物理天花板:每台機器人每天最多 24 小時。而且這是理論值。實際上,考慮到機器人故障、操作員疲勞和各種意外,真實的產出大概是每台每天 3 小時。范麟熙直言:「而且還得看機器人大爺賞不賞臉,它們動不動就鬧脾氣。」
大語言模型之所以能起飛,關鍵就在於網路上有幾乎無限的文字資料可以拿來做預訓練。但機器人沒有這個奢侈。物理世界的操作不會自動被記錄和上傳,每一筆訓練資料都需要有人物理性地操作一台機器人。這就是為什麼機器人 AI 的進展長期落後於語言 AI。不是演算法不夠好,是餵給模型的食物太少了。
穿上機器人的手:UMI 和 DexUMI
既然遙控操作太慢,能不能換個思路?答案來自一個看似簡單到不可思議的點子:把機器人的手直接穿在人類的手上。
這個方法叫做 UMI(Universal Manipulation Interface,通用操作介面)。做法是把機器人的末端執行器(就是「手指」的部分)裝在人的手上,然後人直接用自己的手去做各種操作,動作數據自動記錄。機器人的身體完全不需要參與,因為人體本身就是最好的控制系統。范麟熙對這篇論文的評價毫不掩飾:「可能是機器人資料領域有史以來最偉大的論文之一。」它直接催生了兩家估值超過十億美元的新創公司。左邊那家改良了夾爪的設計,讓它可以直接戴在手上。右邊那家做出了三指數據手套。
2025 年,范麟熙的團隊再推進一步,做出了 DexUMI。這是一套外骨骼裝置,和五指靈巧機器人手有一對一的動作映射。戴上它,人類可以直接用自己的五根手指做精細操作,每一個手指關節的角度都被精確記錄下來。從展示影片可以看到差異有多大:左邊是人類直接戴著外骨骼收集資料,動作快速自然。右邊是傳統遙控操作,即使是團隊裡最熟練的博士生,也得小心翼翼地對準,速度慢了好幾倍,成功率也低得多。
用 DexUMI 收集的資料訓練出的機器人策略,完全不包含任何遙控操作資料,但執行表現卻更好。這打破了「每台機器人每天 24 小時」的物理限制,因為資料收集不再需要機器人在場。范麟熙指著展示影片裡那些解放了的機器人說:「看看它們多開心,終於不用被綁在資料收集的迴圈裡了。」
真正的賽局改變者:人類第一人稱影片
穿戴式裝置把資料收集的天花板推高了一個數量級,但范麟熙認為這還不夠。他用特斯拉的 FSD(Full Self-Driving)做類比:當你開著特斯拉上下班,你其實正在為全球最大的駕駛資料飛輪做貢獻,而且你幾乎感覺不到,因為資料上傳是一個背景程序。但穿著 UMI 或外骨骼做事,依然很「侵入性」,跟自然地開車上班完全是兩回事。
機器人的資料收集需要像 FSD 一樣「退到背景裡去」,變成無感的過程,才能捕捉人類在各行各業、各種場景下的完整靈巧度。范麟熙的答案是全面押注人類自我中心影片(egocentric video),也就是從人類第一人稱視角拍攝的影片。
這就是 EgoScale 計畫。它的訓練資料組成讓人吃驚:99.9% 是人類第一人稱影片,只有不到 0.1% 是遙控操作資料。具體來說,團隊用了 21,000 小時的「野外」人類自我中心影片做預訓練,完全沒有任何機器人資料參與。模型在這個階段學習預測人類手部關節位置和手腕脈衝。接著在動作微調階段,用了 50 小時的高精度動作捕捉資料和 4 小時的遙控操作資料。4 小時,在整個訓練資料裡佔不到千分之一。
產出的是一個端對端策略模型,直接從相機像素映射到 22 個自由度的靈巧機器人手。從展示來看,EgoScale 訓練出的機器人能執行非常精細的任務:分類撲克牌、操作注射器、在容器之間轉移液體。范麟熙半開玩笑地說:「搞不好哪天我們會有機器人護士。」甚至只需要在測試時給一次示範,機器人就能學會不同的衣服摺疊策略。
六年後的重現:靈巧度的 Scaling Law
EgoScale 論文裡最讓范麟熙興奮的發現,不是任何單一任務的表現數字,而是一條數學曲線。
團隊發現,預訓練投入的小時數和最佳驗證損失之間,存在一個非常乾淨的對數線性關係。把它畫成圖,橫軸是預訓練時數,縱軸是損失值,數據點整整齊齊地排在一條直線上。這意味著:只要持續增加人類自我中心影片的預訓練量,機器人的靈巧度就會以可預測的方式持續提升。不是偶爾碰運氣提升,而是沿著一條清楚的數學曲線穩步攀升。
這條曲線和六年前語言模型的 neural scaling law 幾乎一模一樣。當年 OpenAI 發現語言模型的 Scaling Law 時,它改變了整個產業的投資邏輯。因為 Scaling Law 的存在,投資者和實驗室才有信心投入數十億美元建設更大的計算叢集。他們知道更大的模型和更多的資料會帶來可預測的能力提升,這不是賭博,是沿著一條已知的曲線往前走。現在,同樣的定律在機器人靈巧度上被發現了。范麟熙稱之為「大規模的突破」,因為它等於是給機器人領域發了一張「可以放心投資」的許可證。
范麟熙把各種資料策略畫在一張圖上做比較。X 軸是與機器人硬體的對齊程度,Y 軸是可擴展性。遙控操作在最底部,可擴展性最低。穿戴式裝置可以達到數十萬小時的等級。而自我中心影片,如果能建立起類似 FSD 的資料飛輪,一年內就可能達到數千萬小時。他在圖上畫了一條分界線,線的左邊是一個全新的典範:「感測化人類資料」(sensorized human data)。他的預測很明確:一兩年內,遙控操作的比重會降到幾乎可以忽略,機器人的主食將是人類的影片。然後他又為遙控操作舉行了一場「默哀儀式」。
DreamDojo:把算力變成環境
資料策略解決了一半的問題。但范麟熙指出還有另一半:環境。所有的 LLM 前沿實驗室現在都在花大錢取得數百萬個程式碼環境來做強化學習,機器人也面臨同樣的需求,而且更棘手。因為物理環境不像程式碼那樣可以無限複製。你不可能買一百萬台實體機器人來做平行強化學習。
NVIDIA 的部分解法是「real-to-sim-to-real」。用 iPhone 拍照,透過 3D 掃描管線提取真實物體,放進模擬器裡,然後在模擬器中無限擴增出變體。范麟熙稱之為「數位表親」。iPhone 基本上變成了一台口袋型世界掃描器。但這個方法仍然依賴傳統的圖形引擎,有其局限。
DreamDojo 是更激進的下一步。它是一個純粹由資料驅動的神經模擬器,完全取代了傳統物理引擎的角色。DreamDojo 接收連續的動作訊號作為輸入,即時輸出下一個 RGB 畫面和感測器狀態。你看到的每一個像素都不是真實的。更關鍵的是,沒有任何物理方程式或圖形引擎參與運算。DreamDojo 完全透過資料學習不同機器人的力學特性,包括不同的機體結構、不同的關節類型、不同的末端執行器。這讓機器人的後訓練變成了一個大規模平行的強化學習系統:少量真實機器人工作站、一堆跑 3D 掃描的圖形核心、加上大量跑世界模型推論的算力。
范麟熙把它歸結成一個等式:算力 = 環境 = 資料。只要有足夠的 GPU,你就有足夠的模擬環境,也就有足夠的訓練資料。他引用了黃仁勳的名言:「買越多,省越多。」然後加了一句:「這則訊息經我老闆核可。」
我的觀察:資料瓶頸正在被系統性攻破
機器人 AI 長期被三個瓶頸卡住:模型架構、訓練資料、模擬環境。范麟熙這場演講等於宣告這三個瓶頸正在同步被攻破。但在這三者當中,我認為資料策略的突破最具深遠影響。
EgoScale 的資料組成徹底改變了一個根深柢固的假設:訓練機器人需要大量機器人。99.9% 人類影片加 0.1% 遙控操作,這個比例意味著機器人訓練的燃料來源完全改變了。YouTube 和各種串流平台上每天都有海量的第一人稱影片被上傳:料理教學、手工藝示範、維修教程、運動訓練。這些影片過去被視為純粹的娛樂或教育內容,現在它們成了訓練機器人靈巧度的原料。
靈巧度 Scaling Law 的發現提供的是可預測性。六年前 OpenAI 發現語言模型的 Scaling Law 時,很少人意識到那意味著什麼。回頭看,那條曲線預示了 GPT-3、GPT-4 和所有後來的突破。現在機器人靈巧度出現了同樣的曲線,而且這次我們不需要等六年才搞懂它的意義,因為 LLM 的經驗已經告訴我們:Scaling Law 一旦存在,就是一張通往持續突破的路線圖。資金會流向能沿著 Scaling Law 攀升的團隊,人才也會。這條曲線不只是一個學術發現,它可能會重新定義整個機器人產業的投資邏輯。