AI 技術前沿

LLM 用了一萬倍資料才學會語言，機器人不能走同一條路

前沿 LLM 用了比人類兒童多一萬倍的資料才學會語言理解，而機器人面對更嚴峻的資料困境：物理操作資料的蒐集遠比文字爬蟲困難。Jitendra Malik 逐一分析遙控操作、影片學習、模擬訓練三種主流方法的瓶頸，並提出以 real-to-sim-to-real 搭配觸覺感測的解決方案。

2026 年 3 月 3 日 · 來源： CMU Robotics Institute

封面圖

本文整理自卡內基美隆大學機器人研究所 2026 年 2 月的研討會演講。

一萬倍的效率落差

一個十歲的人類小孩，從出生到現在大約聽過 1 億個英文單詞。這聽起來已經很多了，但和當前最先進的大語言模型（LLM）相比，差距驚人：前沿 LLM 的訓練資料規模大約是 1 兆個 token，是小孩接觸量的一萬倍。換句話說，LLM 確實「解決」了語言理解問題，但它用了比人類多一萬倍的資料才做到。

加州大學柏克萊分校講座教授 Jitendra Malik 在卡內基美隆大學的一場研討會上，用這個數字引出了一個對機器人學至關重要的問題：如果在語言這個相對容易蒐集資料的領域，機器學習就已經比人類低效一萬倍，那在物理操作這個資料蒐集困難得多的領域，我們要怎麼辦？文字資料可以從網路上大規模爬取，成本接近零。但機器人操作資料呢？每一筆資料都需要實體機器人在實體環境中執行實體動作，成本高出好幾個數量級。

這不只是學術問題。資料低效直接對應運算成本和能源消耗。如果機器人也需要一萬倍於人類的操作經驗才能學會基本技能，所需的模擬器時間、GPU 時數和電力將會是天文數字。Malik 是 R-CNN 的共同作者（開啟深度學習物體偵測時代）、美國三院院士、2026 年初剛從 Meta FAIR 轉任亞馬遜（Amazon）前沿 AI 與機器人研究團隊副總裁。他認為，機器人學必須找到比「把資料量放大一萬倍」更聰明的學習方法。他的答案來自一個看似不相關的領域：兒童發展研究。

三條路，三個瓶頸

目前機器人訓練資料的蒐集主要有三種方式，Malik 在演講中逐一分析了它們的優勢和根本局限。

第一種是遙控操作（teleoperation）。人類操作員透過手把或手套遠端控制機器人，機器人記錄完整的動作軌跡和狀態資訊。這是當前最普遍的做法，Mobile ALOHA 等系統讓遙控操作變得更容易上手。但這條路有兩個根本問題。第一是人類的視覺延遲：從看到畫面到做出反應大約需要 200 毫秒，這在精細操作中是致命的。你試著用遙控器幫機器人轉開一個瓶蓋，那 200 毫秒的延遲會讓操作變得異常困難。第二是多樣性不足：遙控操作通常在實驗室環境中進行，場景的多樣性遠不如真實生活。要蒐集涵蓋各種廚房、各種物品、各種光線條件的資料，遙控操作的效率太低了。

第二種是從人類影片中學習。YouTube 上有超過 1.56 億小時的影片，其中包含海量的人類操作行為。多樣性不是問題，反而可能是最豐富的操作知識庫。但問題出在「具身差距」（embodiment gap）：人的手有 20 多個自由度，機器人手的結構完全不同，你不能直接把人類動作複製到機器人身上，中間需要一個「重定向」（retargeting）的步驟。更麻煩的是，影片中完全看不到力的資訊。你能看到有人在擰螺絲，但看不到他用了多大的力、指尖的接觸面積有多少、何時加力何時放鬆。對操作來說，力的資訊和動作軌跡同等重要，而影片只能提供後者。

第三種是在模擬器中訓練。模擬器可以無限生成資料，對機器人完全安全，還能施加真實世界中不可能的極端條件（比如突然推一下機器人來測試平衡恢復能力）。Malik 自己的行走研究就大量依賴模擬器，效果很好。但模擬器在操作領域碰到了兩個嚴重困難。首先是模擬到真實的差距（sim-to-real gap）：物理引擎很難完美重現物體的表面摩擦、彈性、柔軟度，在行走中這個差距可以靠域隨機化來彌補，但在精細操作中差距更大也更難處理。其次是獎勵函數設計的困難：在行走任務中，「向前走而不摔倒」是一個很容易定義的數學目標；但在操作中，要怎麼用數學公式告訴機器人什麼叫「把衣服摺好」或「把蛋打進碗裡而不散掉」？獎勵的定義本身就是一個巨大的研究挑戰。

Malik 的結論是：三種方法各有所長，但沒有一種能獨立解決操作學習的問題。

觀察加練習：兒童教會我們的學習方法

面對三條路都走不通的困境，Malik 的解法不是發明第四條路，而是設計一套能結合三者優勢的整合方案。靈感來自兒童發展研究中最基本的觀察：小孩怎麼學新動作？先看大人做（觀察），然後自己反覆練習（具身執行）。

Malik 把這個觀察-練習的循環轉化成了工程流程，稱為「real-to-sim-to-real」。第一個「real」階段：用影片記錄人類在真實環境中執行的動作，然後透過電腦視覺技術重建出完整的 4D 軌跡（三維空間加時間維度）。這裡用到的技術包括 HMR（全身 3D 重建）、HaMeR（手部 3D 重建）、以及 SAM 3D（物體的完整 3D 形狀重建）。「Sim」階段：把重建出的人類動作軌跡導入物理模擬器，將動作重定向到機器人的身體結構上，然後用強化學習讓機器人在模擬中反覆練習。第二個「real」階段：把訓練好的策略部署到真實機器人上。

這套流程的巧妙之處在於它如何避開了三種傳統方法的各自瓶頸。從影片中獲取動作的高階框架，解決了純模擬器方法的獎勵設計困難（因為人類軌跡本身就是最好的參考標準）。在模擬器中生成大量練習資料，解決了遙控操作的多樣性不足。透過重定向步驟，不需要人類和機器人有相同的身體結構，解決了具身差距問題。而且因為模擬中的練習可以加入接觸力學，彌補了影片中缺失的力資訊。

Malik 的 VideoMimic 系統已經在行走任務上驗證了這套流程。研究生在柏克萊校園爬樓梯時被拍攝下來，影片被重建成 3D 場景和人體動作，重定向到 Digit 人形機器人，在模擬器中訓練後部署到真實世界。結果是，機器人能在從未見過的地形上使用視覺來行走，展現了真正的泛化能力。下一步是把同樣的方法擴展到手部操作，SAM 3D 的 3D 物體重建能力讓 YouTube 上的操作影片有潛力成為大規模訓練素材。

觸覺：補上影片看不到的那一塊

在 Malik 的框架中，有一塊拼圖是影片觀察無論如何都補不上的：接觸力。

當一個物體已經在手裡，視覺能提供的資訊就變得有限了。你的手指擋住了大部分視角，而且最關鍵的資訊（握力大小、物體是否在滑動、表面材質的觸感）根本不在視覺的感知範圍內。這就是觸覺感測器必須登場的原因。Malik 引用的 Digit 360 感測器（Meta 開發）能達到接近人類皮膚的力解析度，每個指尖都能感受接觸位置、法向力和剪切力。

實驗數據清楚支持觸覺的必要性。在手內物體旋轉的任務中，視覺加觸覺的組合表現顯著優於單獨使用視覺或單獨使用觸覺。這不是一個任務上的巧合，而是跨多個機器人手和多種任務的一致結果。在其他任務上（如插入圓柱體、旋轉瓶蓋），加入觸覺回饋也都帶來了可測量的效能提升。

Malik 對觸覺的定位很明確：它不是錦上添花，而是必要條件。在他提出的三層框架中，觸覺感測直接對應「牛頓」的層次（接觸力和力矩），是語言和視覺都觸及不到的物理量。沒有觸覺的機器人做精細操作，就像少了一個感知維度。他用了一個很直接的類比：要求機器人只用平行夾爪（兩根手指）做家務，就像把你的百萬畫素手機相機換成 16×16 畫素的感光元件。技術上能用，但離實用差得遠。

20 個原子技能：先練基本功再組合

Malik 在演講最後提出了一個非常具體的研究方向：不要追求在複雜任務上做出令人驚豔的一次性展示，而是先把大約 20 個基本的原子技能（pour、grasp、insert、twist、push 等）做到高可靠度和高泛化能力，然後再組合成複雜行為。

這 20 個技能大致對應五歲小孩知道的簡單動詞。每個動詞看起來簡單，但要讓機器人在各種物體、各種環境下都能可靠地執行，挑戰依然巨大。一個「抓」字背後，是不同物體形狀、重量、材質、摩擦係數所需的完全不同的手指策略。Malik 提出的數學很簡單但很有說服力：如果一個原子技能的可靠度只有 80%，五個串在一起的整體成功率就只剩 33%。先把每個基本功做到 99%，複雜任務的成功率才有保障。

在獎勵函數設計這個操作學習最頭痛的問題上，Malik 也給出了兩個有前景的方向。第一是用觀察到的人類軌跡作為逐狀態的密集獎勵：下一個時刻的目標狀態就是人類軌跡中的下一幀，這比「最終成功了嗎」這種稀疏獎勵更容易讓強化學習收斂。第二是用視覺語言模型（VLM）來評估任務中間階段的完成度，而不用手寫的數學公式來定義獎勵。他預期這兩個方向在一到兩年內會有顯著進展。

這種「先練基本功再組合」的策略，在當前追求端對端大模型的氛圍中不是主流。但 Malik 的邏輯清楚：機器人面對的資料效率問題比語言模型嚴峻得多，不能指望用同一套「放大資料規模」的策略來解決。必須更聰明地利用有限的資料，把每一筆資料的學習效果最大化。從兒童發展中學方法、從影片中學動作框架、在模擬器中練習具身細節、用觸覺補上力的資訊，這套組合拳的每一步都在努力提高資料效率。

最終能走多遠，取決於幾個關鍵技術（SAM 3D 的重建品質、模擬器的接觸力學精度、觸覺感測器的成本和耐用性）能進步多快。但至少，Malik 提出的不只是一個批評（「LLM 路線不對」），更是一張具體的替代路線圖。如果你正在思考機器人技術的投入方向，這張路線圖值得仔細研究。