AI 技術前沿

機器人也有 Scaling Law！NVIDIA 用兩萬小時人類影片，首度發現靈巧度的擴展定律

NVIDIA 機器人團隊在 Sequoia AI Ascent 2026 宣布重大發現：機器人的靈巧度存在類似大語言模型的 Scaling Law。透過 EgoScale 方法，用 99.9% 人類第一人稱影片加不到 0.1% 遙控操作資料，就能訓練出高靈巧度的機器人手臂。團隊同時發布神經模擬器 DreamDojo，讓算力直接等於環境和資料。

2026 年 5 月 12 日 · 來源： Sequoia Capital AI Ascent 2026

機器人也有 Scaling Law！NVIDIA 用兩萬小時人類影片，首度發現靈巧度的擴展定律

本文整理自 Sequoia Capital 2026 年 4 月舉辦的 AI Ascent 活動演講。

史上最貴的遙控操作資料

NVIDIA 的首席科學家 Bill Dally 親自上陣操作遙控機器人的畫面，被 NVIDIA AI 總監范麟熙（Jim Fan）拿來當演講開場的笑料。「以他的薪資水準來算，這大概是我們資料集裡最昂貴的一筆訓練軌跡了。」笑聲過後，范麟熙話鋒一轉，帶出了機器人領域一個最根本的瓶頸問題：資料從哪裡來？

過去三年，遙控操作（teleoperation）是機器人資料收集的主流方法。VR 頭盔、精心調校的串流延遲、看起來像中世紀刑具一樣複雜的操控裝置。業界投入了大量資金和工程心血。但不管裝置多先進、操作員多熟練，遙控操作有一個無法突破的物理天花板：每台機器人每天最多 24 小時。而且這是理論值。實際上，考慮到機器人故障、操作員疲勞和各種意外，真實的產出大概是每台每天 3 小時。范麟熙直言：「而且還得看機器人大爺賞不賞臉，它們動不動就鬧脾氣。」

大語言模型之所以能起飛，關鍵就在於網路上有幾乎無限的文字資料可以拿來做預訓練。但機器人沒有這個奢侈。物理世界的操作不會自動被記錄和上傳，每一筆訓練資料都需要有人物理性地操作一台機器人。這就是為什麼機器人 AI 的進展長期落後於語言 AI。不是演算法不夠好，是餵給模型的食物太少了。

穿上機器人的手：UMI 和 DexUMI

既然遙控操作太慢，能不能換個思路？答案來自一個看似簡單到不可思議的點子：把機器人的手直接穿在人類的手上。

這個方法叫做 UMI（Universal Manipulation Interface，通用操作介面）。做法是把機器人的末端執行器（就是「手指」的部分）裝在人的手上，然後人直接用自己的手去做各種操作，動作數據自動記錄。機器人的身體完全不需要參與，因為人體本身就是最好的控制系統。范麟熙對這篇論文的評價毫不掩飾：「可能是機器人資料領域有史以來最偉大的論文之一。」它直接催生了兩家估值超過十億美元的新創公司。左邊那家改良了夾爪的設計，讓它可以直接戴在手上。右邊那家做出了三指數據手套。

2025 年，范麟熙的團隊再推進一步，做出了 DexUMI。這是一套外骨骼裝置，和五指靈巧機器人手有一對一的動作映射。戴上它，人類可以直接用自己的五根手指做精細操作，每一個手指關節的角度都被精確記錄下來。從展示影片可以看到差異有多大：左邊是人類直接戴著外骨骼收集資料，動作快速自然。右邊是傳統遙控操作，即使是團隊裡最熟練的博士生，也得小心翼翼地對準，速度慢了好幾倍，成功率也低得多。

用 DexUMI 收集的資料訓練出的機器人策略，完全不包含任何遙控操作資料，但執行表現卻更好。這打破了「每台機器人每天 24 小時」的物理限制，因為資料收集不再需要機器人在場。范麟熙指著展示影片裡那些解放了的機器人說：「看看它們多開心，終於不用被綁在資料收集的迴圈裡了。」

真正的賽局改變者：人類第一人稱影片

穿戴式裝置把資料收集的天花板推高了一個數量級，但范麟熙認為這還不夠。他用特斯拉的 FSD（Full Self-Driving）做類比：當你開著特斯拉上下班，你其實正在為全球最大的駕駛資料飛輪做貢獻，而且你幾乎感覺不到，因為資料上傳是一個背景程序。但穿著 UMI 或外骨骼做事，依然很「侵入性」，跟自然地開車上班完全是兩回事。

機器人的資料收集需要像 FSD 一樣「退到背景裡去」，變成無感的過程，才能捕捉人類在各行各業、各種場景下的完整靈巧度。范麟熙的答案是全面押注人類自我中心影片（egocentric video），也就是從人類第一人稱視角拍攝的影片。

這就是 EgoScale 計畫。它的訓練資料組成讓人吃驚：99.9% 是人類第一人稱影片，只有不到 0.1% 是遙控操作資料。具體來說，團隊用了 21,000 小時的「野外」人類自我中心影片做預訓練，完全沒有任何機器人資料參與。模型在這個階段學習預測人類手部關節位置和手腕脈衝。接著在動作微調階段，用了 50 小時的高精度動作捕捉資料和 4 小時的遙控操作資料。4 小時，在整個訓練資料裡佔不到千分之一。

產出的是一個端對端策略模型，直接從相機像素映射到 22 個自由度的靈巧機器人手。從展示來看，EgoScale 訓練出的機器人能執行非常精細的任務：分類撲克牌、操作注射器、在容器之間轉移液體。范麟熙半開玩笑地說：「搞不好哪天我們會有機器人護士。」甚至只需要在測試時給一次示範，機器人就能學會不同的衣服摺疊策略。

六年後的重現：靈巧度的 Scaling Law

EgoScale 論文裡最讓范麟熙興奮的發現，不是任何單一任務的表現數字，而是一條數學曲線。

團隊發現，預訓練投入的小時數和最佳驗證損失之間，存在一個非常乾淨的對數線性關係。把它畫成圖，橫軸是預訓練時數，縱軸是損失值，數據點整整齊齊地排在一條直線上。這意味著：只要持續增加人類自我中心影片的預訓練量，機器人的靈巧度就會以可預測的方式持續提升。不是偶爾碰運氣提升，而是沿著一條清楚的數學曲線穩步攀升。

這條曲線和六年前語言模型的 neural scaling law 幾乎一模一樣。當年 OpenAI 發現語言模型的 Scaling Law 時，它改變了整個產業的投資邏輯。因為 Scaling Law 的存在，投資者和實驗室才有信心投入數十億美元建設更大的計算叢集。他們知道更大的模型和更多的資料會帶來可預測的能力提升，這不是賭博，是沿著一條已知的曲線往前走。現在，同樣的定律在機器人靈巧度上被發現了。范麟熙稱之為「大規模的突破」，因為它等於是給機器人領域發了一張「可以放心投資」的許可證。

范麟熙把各種資料策略畫在一張圖上做比較。X 軸是與機器人硬體的對齊程度，Y 軸是可擴展性。遙控操作在最底部，可擴展性最低。穿戴式裝置可以達到數十萬小時的等級。而自我中心影片，如果能建立起類似 FSD 的資料飛輪，一年內就可能達到數千萬小時。他在圖上畫了一條分界線，線的左邊是一個全新的典範：「感測化人類資料」（sensorized human data）。他的預測很明確：一兩年內，遙控操作的比重會降到幾乎可以忽略，機器人的主食將是人類的影片。然後他又為遙控操作舉行了一場「默哀儀式」。

DreamDojo：把算力變成環境

資料策略解決了一半的問題。但范麟熙指出還有另一半：環境。所有的 LLM 前沿實驗室現在都在花大錢取得數百萬個程式碼環境來做強化學習，機器人也面臨同樣的需求，而且更棘手。因為物理環境不像程式碼那樣可以無限複製。你不可能買一百萬台實體機器人來做平行強化學習。

NVIDIA 的部分解法是「real-to-sim-to-real」。用 iPhone 拍照，透過 3D 掃描管線提取真實物體，放進模擬器裡，然後在模擬器中無限擴增出變體。范麟熙稱之為「數位表親」。iPhone 基本上變成了一台口袋型世界掃描器。但這個方法仍然依賴傳統的圖形引擎，有其局限。

DreamDojo 是更激進的下一步。它是一個純粹由資料驅動的神經模擬器，完全取代了傳統物理引擎的角色。DreamDojo 接收連續的動作訊號作為輸入，即時輸出下一個 RGB 畫面和感測器狀態。你看到的每一個像素都不是真實的。更關鍵的是，沒有任何物理方程式或圖形引擎參與運算。DreamDojo 完全透過資料學習不同機器人的力學特性，包括不同的機體結構、不同的關節類型、不同的末端執行器。這讓機器人的後訓練變成了一個大規模平行的強化學習系統：少量真實機器人工作站、一堆跑 3D 掃描的圖形核心、加上大量跑世界模型推論的算力。

范麟熙把它歸結成一個等式：算力 = 環境 = 資料。只要有足夠的 GPU，你就有足夠的模擬環境，也就有足夠的訓練資料。他引用了黃仁勳的名言：「買越多，省越多。」然後加了一句：「這則訊息經我老闆核可。」

我的觀察：資料瓶頸正在被系統性攻破

機器人 AI 長期被三個瓶頸卡住：模型架構、訓練資料、模擬環境。范麟熙這場演講等於宣告這三個瓶頸正在同步被攻破。但在這三者當中，我認為資料策略的突破最具深遠影響。

EgoScale 的資料組成徹底改變了一個根深柢固的假設：訓練機器人需要大量機器人。99.9% 人類影片加 0.1% 遙控操作，這個比例意味著機器人訓練的燃料來源完全改變了。YouTube 和各種串流平台上每天都有海量的第一人稱影片被上傳：料理教學、手工藝示範、維修教程、運動訓練。這些影片過去被視為純粹的娛樂或教育內容，現在它們成了訓練機器人靈巧度的原料。

靈巧度 Scaling Law 的發現提供的是可預測性。六年前 OpenAI 發現語言模型的 Scaling Law 時，很少人意識到那意味著什麼。回頭看，那條曲線預示了 GPT-3、GPT-4 和所有後來的突破。現在機器人靈巧度出現了同樣的曲線，而且這次我們不需要等六年才搞懂它的意義，因為 LLM 的經驗已經告訴我們：Scaling Law 一旦存在，就是一張通往持續突破的路線圖。資金會流向能沿著 Scaling Law 攀升的團隊，人才也會。這條曲線不只是一個學術發現，它可能會重新定義整個機器人產業的投資邏輯。