LLM 用了一萬倍資料才學會語言,機器人不能走同一條路

前沿 LLM 用了比人類兒童多一萬倍的資料才學會語言理解,而機器人面對更嚴峻的資料困境:物理操作資料的蒐集遠比文字爬蟲困難。Jitendra Malik 逐一分析遙控操作、影片學習、模擬訓練三種主流方法的瓶頸,並提出以 real-to-sim-to-real 搭配觸覺感測的解決方案。

LLM 用了一萬倍資料才學會語言,機器人不能走同一條路

封面圖

本文整理自卡內基美隆大學機器人研究所 2026 年 2 月的研討會演講。

{{< youtube ry8itipzBFE >}}


一萬倍的效率落差

一個十歲的人類小孩,從出生到現在大約聽過 1 億個英文單詞。這聽起來已經很多了,但和當前最先進的大語言模型(LLM)相比,差距驚人:前沿 LLM 的訓練資料規模大約是 1 兆個 token,是小孩接觸量的一萬倍。換句話說,LLM 確實「解決」了語言理解問題,但它用了比人類多一萬倍的資料才做到。

加州大學柏克萊分校講座教授 Jitendra Malik 在卡內基美隆大學的一場研討會上,用這個數字引出了一個對機器人學至關重要的問題:如果在語言這個相對容易蒐集資料的領域,機器學習就已經比人類低效一萬倍,那在物理操作這個資料蒐集困難得多的領域,我們要怎麼辦?文字資料可以從網路上大規模爬取,成本接近零。但機器人操作資料呢?每一筆資料都需要實體機器人在實體環境中執行實體動作,成本高出好幾個數量級。

這不只是學術問題。資料低效直接對應運算成本和能源消耗。如果機器人也需要一萬倍於人類的操作經驗才能學會基本技能,所需的模擬器時間、GPU 時數和電力將會是天文數字。Malik 是 R-CNN 的共同作者(開啟深度學習物體偵測時代)、美國三院院士、2026 年初剛從 Meta FAIR 轉任亞馬遜(Amazon)前沿 AI 與機器人研究團隊副總裁。他認為,機器人學必須找到比「把資料量放大一萬倍」更聰明的學習方法。他的答案來自一個看似不相關的領域:兒童發展研究。

三條路,三個瓶頸

目前機器人訓練資料的蒐集主要有三種方式,Malik 在演講中逐一分析了它們的優勢和根本局限。

第一種是遙控操作(teleoperation)。人類操作員透過手把或手套遠端控制機器人,機器人記錄完整的動作軌跡和狀態資訊。這是當前最普遍的做法,Mobile ALOHA 等系統讓遙控操作變得更容易上手。但這條路有兩個根本問題。第一是人類的視覺延遲:從看到畫面到做出反應大約需要 200 毫秒,這在精細操作中是致命的。你試著用遙控器幫機器人轉開一個瓶蓋,那 200 毫秒的延遲會讓操作變得異常困難。第二是多樣性不足:遙控操作通常在實驗室環境中進行,場景的多樣性遠不如真實生活。要蒐集涵蓋各種廚房、各種物品、各種光線條件的資料,遙控操作的效率太低了。

第二種是從人類影片中學習。YouTube 上有超過 1.56 億小時的影片,其中包含海量的人類操作行為。多樣性不是問題,反而可能是最豐富的操作知識庫。但問題出在「具身差距」(embodiment gap):人的手有 20 多個自由度,機器人手的結構完全不同,你不能直接把人類動作複製到機器人身上,中間需要一個「重定向」(retargeting)的步驟。更麻煩的是,影片中完全看不到力的資訊。你能看到有人在擰螺絲,但看不到他用了多大的力、指尖的接觸面積有多少、何時加力何時放鬆。對操作來說,力的資訊和動作軌跡同等重要,而影片只能提供後者。

第三種是在模擬器中訓練。模擬器可以無限生成資料,對機器人完全安全,還能施加真實世界中不可能的極端條件(比如突然推一下機器人來測試平衡恢復能力)。Malik 自己的行走研究就大量依賴模擬器,效果很好。但模擬器在操作領域碰到了兩個嚴重困難。首先是模擬到真實的差距(sim-to-real gap):物理引擎很難完美重現物體的表面摩擦、彈性、柔軟度,在行走中這個差距可以靠域隨機化來彌補,但在精細操作中差距更大也更難處理。其次是獎勵函數設計的困難:在行走任務中,「向前走而不摔倒」是一個很容易定義的數學目標;但在操作中,要怎麼用數學公式告訴機器人什麼叫「把衣服摺好」或「把蛋打進碗裡而不散掉」?獎勵的定義本身就是一個巨大的研究挑戰。

Malik 的結論是:三種方法各有所長,但沒有一種能獨立解決操作學習的問題。

觀察加練習:兒童教會我們的學習方法

面對三條路都走不通的困境,Malik 的解法不是發明第四條路,而是設計一套能結合三者優勢的整合方案。靈感來自兒童發展研究中最基本的觀察:小孩怎麼學新動作?先看大人做(觀察),然後自己反覆練習(具身執行)。

Malik 把這個觀察-練習的循環轉化成了工程流程,稱為「real-to-sim-to-real」。第一個「real」階段:用影片記錄人類在真實環境中執行的動作,然後透過電腦視覺技術重建出完整的 4D 軌跡(三維空間加時間維度)。這裡用到的技術包括 HMR(全身 3D 重建)、HaMeR(手部 3D 重建)、以及 SAM 3D(物體的完整 3D 形狀重建)。「Sim」階段:把重建出的人類動作軌跡導入物理模擬器,將動作重定向到機器人的身體結構上,然後用強化學習讓機器人在模擬中反覆練習。第二個「real」階段:把訓練好的策略部署到真實機器人上。

這套流程的巧妙之處在於它如何避開了三種傳統方法的各自瓶頸。從影片中獲取動作的高階框架,解決了純模擬器方法的獎勵設計困難(因為人類軌跡本身就是最好的參考標準)。在模擬器中生成大量練習資料,解決了遙控操作的多樣性不足。透過重定向步驟,不需要人類和機器人有相同的身體結構,解決了具身差距問題。而且因為模擬中的練習可以加入接觸力學,彌補了影片中缺失的力資訊。

Malik 的 VideoMimic 系統已經在行走任務上驗證了這套流程。研究生在柏克萊校園爬樓梯時被拍攝下來,影片被重建成 3D 場景和人體動作,重定向到 Digit 人形機器人,在模擬器中訓練後部署到真實世界。結果是,機器人能在從未見過的地形上使用視覺來行走,展現了真正的泛化能力。下一步是把同樣的方法擴展到手部操作,SAM 3D 的 3D 物體重建能力讓 YouTube 上的操作影片有潛力成為大規模訓練素材。

觸覺:補上影片看不到的那一塊

在 Malik 的框架中,有一塊拼圖是影片觀察無論如何都補不上的:接觸力。

當一個物體已經在手裡,視覺能提供的資訊就變得有限了。你的手指擋住了大部分視角,而且最關鍵的資訊(握力大小、物體是否在滑動、表面材質的觸感)根本不在視覺的感知範圍內。這就是觸覺感測器必須登場的原因。Malik 引用的 Digit 360 感測器(Meta 開發)能達到接近人類皮膚的力解析度,每個指尖都能感受接觸位置、法向力和剪切力。

實驗數據清楚支持觸覺的必要性。在手內物體旋轉的任務中,視覺加觸覺的組合表現顯著優於單獨使用視覺或單獨使用觸覺。這不是一個任務上的巧合,而是跨多個機器人手和多種任務的一致結果。在其他任務上(如插入圓柱體、旋轉瓶蓋),加入觸覺回饋也都帶來了可測量的效能提升。

Malik 對觸覺的定位很明確:它不是錦上添花,而是必要條件。在他提出的三層框架中,觸覺感測直接對應「牛頓」的層次(接觸力和力矩),是語言和視覺都觸及不到的物理量。沒有觸覺的機器人做精細操作,就像少了一個感知維度。他用了一個很直接的類比:要求機器人只用平行夾爪(兩根手指)做家務,就像把你的百萬畫素手機相機換成 16×16 畫素的感光元件。技術上能用,但離實用差得遠。

20 個原子技能:先練基本功再組合

Malik 在演講最後提出了一個非常具體的研究方向:不要追求在複雜任務上做出令人驚豔的一次性展示,而是先把大約 20 個基本的原子技能(pour、grasp、insert、twist、push 等)做到高可靠度和高泛化能力,然後再組合成複雜行為。

這 20 個技能大致對應五歲小孩知道的簡單動詞。每個動詞看起來簡單,但要讓機器人在各種物體、各種環境下都能可靠地執行,挑戰依然巨大。一個「抓」字背後,是不同物體形狀、重量、材質、摩擦係數所需的完全不同的手指策略。Malik 提出的數學很簡單但很有說服力:如果一個原子技能的可靠度只有 80%,五個串在一起的整體成功率就只剩 33%。先把每個基本功做到 99%,複雜任務的成功率才有保障。

在獎勵函數設計這個操作學習最頭痛的問題上,Malik 也給出了兩個有前景的方向。第一是用觀察到的人類軌跡作為逐狀態的密集獎勵:下一個時刻的目標狀態就是人類軌跡中的下一幀,這比「最終成功了嗎」這種稀疏獎勵更容易讓強化學習收斂。第二是用視覺語言模型(VLM)來評估任務中間階段的完成度,而不用手寫的數學公式來定義獎勵。他預期這兩個方向在一到兩年內會有顯著進展。

這種「先練基本功再組合」的策略,在當前追求端對端大模型的氛圍中不是主流。但 Malik 的邏輯清楚:機器人面對的資料效率問題比語言模型嚴峻得多,不能指望用同一套「放大資料規模」的策略來解決。必須更聰明地利用有限的資料,把每一筆資料的學習效果最大化。從兒童發展中學方法、從影片中學動作框架、在模擬器中練習具身細節、用觸覺補上力的資訊,這套組合拳的每一步都在努力提高資料效率。

最終能走多遠,取決於幾個關鍵技術(SAM 3D 的重建品質、模擬器的接觸力學精度、觸覺感測器的成本和耐用性)能進步多快。但至少,Malik 提出的不只是一個批評(「LLM 路線不對」),更是一張具體的替代路線圖。如果你正在思考機器人技術的投入方向,這張路線圖值得仔細研究。