AI 技術前沿

柏克萊教授 Jitendra Malik：別再迷信大型語言模型能解決機器人，跟五歲小孩學才是正途

UC Berkeley 教授 Jitendra Malik 在 CMU 機器人研討會中提出，當前主流的「在 VLM 上加機器人動作」路線根本行不通。他用亞里斯多德、歐幾里得、牛頓三個層次拆解機器人操作的本質，並從兒童發展研究中提煉出「真實到模擬再到真實」的訓練框架，主張多指手搭配觸覺感測才是靈巧操作的唯一解。

2026 年 2 月 20 日 · 來源： CMU Robotics Institute Seminar

柏克萊教授 Jitendra Malik：別再迷信大型語言模型能解決機器人，跟五歲小孩學才是正途

本文整理自 CMU 機器人研究所（Robotics Institute）2026 年 2 月發表的研討會演講。

如果你相信社群媒體上的機器人展示影片，你大概會覺得機器人操作問題每個禮拜都被解決了一次。吉坦德拉·馬利克（Jitendra Malik）在 CMU 演講的開場就用這句自嘲戳破了這個泡泡：「我之所以不相信它這週被解決了，是因為它上週就已經被解決了。」這位在電腦視覺領域有開創性貢獻的學者——Normalized Cuts、R-CNN 都出自他的研究——如今把焦點放在具身智慧（embodied AI），而他帶來的訊息很明確：當前機器人領域最主流的技術路線，方向是錯的。

三位古人告訴你機器人到底需要什麼

Malik 提出了一個簡潔有力的框架：要讓機器人完成操作任務，你需要同時解決三個層次的問題，分別對應三位偉大思想家。

第一個層次是亞里斯多德（Aristotle）——目標與計畫。你要做一個歐姆蛋，先打蛋、再攪拌、再下鍋，這種高層次的任務拆解，大型語言模型已經做得相當好。事實上，這正是 LLM 最擅長的事情：把一個抽象目標分解成一連串步驟。問題是，絕大多數人以為解決了這一層就等於解決了機器人問題，這是一個危險的錯覺。

第二個層次是歐幾里得（Euclid）——四維時空中的運動軌跡。當你說「拿起杯子」，語言壓縮掉了巨量的運動資訊。你可以用捏取（pincer grasp）、可以用力握（power grasp）、可以雙手並用，每一種抓取方式對應的手指軌跡、關節角度、時序協調都截然不同。語言做不到這種精度的描述，因為語言本質上是一種有損壓縮機制。Malik 把這稱為「語言帝國主義」（language imperialism）的問題：當代 AI 領域把智慧等同於語言能力，但如果你回顧演化史，智慧在五億五千萬年前的寒武紀就開始了，那時的小生物能移動、能看見、能找食物。而語言？如果把演化史壓縮成 24 小時，語言大概只佔最後幾分鐘。

第三個層次是牛頓（Newton）——接觸力與扭矩。物理操作的核心是 F=MA，當你的手指碰到物體，施加多大的力、什麼方向、持續多久，這些都受牛頓力學支配。而這一層需要的不只是視覺，更需要觸覺感測。當物體已經握在手中，視覺的作用急劇下降，觸覺才是你判斷握力是否足夠、物體是否滑動的關鍵感知。

Malik 的核心論點是：當前主流的「拿一個視覺語言模型，然後在後面接上機器人動作」的做法，只解決了亞里斯多德那一層。歐幾里得和牛頓被完全忽略了。

LLM 用了一萬倍的資料，而你的五歲小孩根本不需要

為什麼不能直接把 LLM 的成功模式複製到機器人上？Malik 給出了一個令人震撼的數字對比。

一個十歲的人類小孩，一生中大約聽過一億個詞彙。而前沿的大型語言模型，訓練資料量大約是一兆個 token——整整多了一萬倍。也就是說，LLM 確實解決了語言理解的問題，但它的方式是用比人類多一萬倍的資料去暴力突破。這在語言領域之所以可行，是因為網路上有近乎無限的文字可以抓取，成本相對低廉。

但物理世界的資料收集完全是另一回事。你不可能讓機器人做一萬倍於人類的物理操作來學會折衣服。資料收集的成本、時間、安全風險都不允許這種暴力策略。這意味著機器人學習必須找到根本上更高效的方法，而不是簡單地套用「更多資料、更大模型」的配方。

這個資料效率的落差，也連帶引出了能源和算力的問題。如果你的學習方法需要一萬倍的資料，那你的訓練成本也會相應膨脹。在一個全球都在擔心 AI 能耗的時代，這不只是技術問題，更是資源配置的問題。

三種訓練方法，沒有一種是萬能的

Malik 接著盤點了目前機器人領域的三種主流資料收集方式，結論是每一種都有根本性的限制。

第一種是遙操作（teleoperation）。操作員透過手柄或手套遠端控制機器人，同時記錄所有的軌跡和力道資料。這是目前最常見的方法，Mobile ALOHA 就是代表。問題在於人類的視覺反應延遲大約 200 毫秒，這對精細的靈巧操作來說太慢了。而且每一組遙操作資料都需要真人花時間錄製，多樣性和規模受限。

第二種是從人類影片中學習。YouTube 上有超過一億五千六百萬小時的影片，多樣性幾乎無窮。但問題是人的身體和機器人的身體不一樣——手指的數量、關節的位置、力量的分布都不同——這就是所謂的「具身落差」（embodiment gap）。更關鍵的是，影片裡看不到力的資訊。你可以從畫面中重建手的運動軌跡，但你無法知道手指施加了多少力。

第三種是模擬環境。在物理模擬器中訓練，機器人可以安全地嘗試數百萬次，不用擔心摔壞。這在行走和移動（locomotion）領域已經取得了巨大成功——Malik 的團隊用模擬訓練出的人形機器人 Digit，能在舊金山最陡的街道（41% 坡度的 Bradford Street）上行走，而且是零樣本直接轉移到真實世界。但模擬在操作任務上碰壁了，原因是獎勵函數（reward function）的設計極其困難。你怎麼用數學公式告訴機器人「把蛋打好」算成功？

圖靈 1950 年的預言，兒童發展研究補上了答案

面對這三種方法各自的瓶頸，Malik 回到了一個意想不到的出發點：兒童發展心理學。

他引用了艾倫·圖靈（Alan Turing）在 1950 年那篇劃時代論文中的一段話：與其試著模擬成人的心智，何不模擬兒童的心智，然後對它施加適當的教育，最終就能得到成人的大腦。Malik 指出，圖靈寫下這段話的時候，人類對兒童發展的科學理解還很初步。但七十五年過去了，Smith 和 Gasser 等發展心理學家已經累積了大量實證研究，歸納出幾個關鍵原則：學習必須是多模態的（視覺、觸覺、本體感覺一起），必須是漸進式的（先學粗動作再學精細動作），必須是具身的（學習與特定的身體綁定），而且語言在早期運動學習中扮演的角色非常有限。

這些原則指向了一個具體的技術路線：「真實到模擬再到真實」（real-to-sim-to-real）。核心邏輯是模仿一個小孩學走路的過程。小孩先看大人怎麼走（觀察），然後自己用自己的身體去練習（執行）。對機器人來說，就是先用電腦視覺技術把人類影片中的動作重建成 3D/4D 軌跡，然後把這些軌跡轉換到機器人的身體上（解決具身落差），接著在模擬環境中用強化學習大量練習，最後部署到真實世界。

VideoMimic：讓人形機器人看影片學爬樓梯

這條路線不是空談。Malik 展示了他的團隊開發的 VideoMimic 系統，已經在行走任務上驗證了完整的 pipeline。

研究團隊拍攝了研究生在柏克萊校園爬樓梯、走不平地面的影片，然後用電腦視覺技術把這些影片重建成 3D 場景和人體運動軌跡。接著，他們把人體的運動「重定向」（retarget）到 Digit 機器人的身體結構上，在物理模擬器中用強化學習訓練行走策略。最終的策略直接部署到真實的機器人上，Digit 成功在校園裡爬上樓梯、走過複雜地形，而且是帶著視覺的——機器人透過自己的眼睛看地形並做出反應，而不是盲目地重播動作。

這個結果的意義在於：它證明了你可以從普通的影片出發，經過一連串轉換，最終讓一個與拍攝者身體結構完全不同的機器人學會同樣的運動技能。而這整個過程不需要任何遙操作資料，也不需要手動設計複雜的獎勵函數——模仿人類軌跡本身就是獎勵訊號。

Malik 團隊正在把同樣的框架延伸到操作任務。透過 HAMMER 和 SAM 3D（與 Meta 合作開發）等工具，他們已經能夠從單目影片中重建手與物體的完整 3D 互動軌跡。下一步是把這些軌跡重定向到機器人的多指手上，在模擬中訓練靈巧操作的策略。

多指手不是奢侈品，是必需品

Malik 在演講中對一個問題的立場毫不含糊：平行夾爪（parallel jaw gripper）不夠用，多指手才是正解。

他用了一個極其生動的類比。現在的手機都有千萬像素的鏡頭。如果有人告訴你，16 乘 16 像素的攝影機在技術上也能辨識人臉，所以我們應該放棄高畫質相機，你會覺得他瘋了。但機器人領域正在做類似的事：因為平行夾爪「勉強能用」，就把它當作操作研究的標準工具。

多指手能做的事情遠超過平行夾爪。想想你日常生活中的手部動作：開瓶蓋需要旋轉、拿鑰匙開門需要精確的捏取和扭轉、摺衣服需要雙手的複雜協調。這些動作都需要五根手指的獨立控制和精細的力道調節。Malik 的實驗室堅持只使用多指手，因為他認為接受平行夾爪就等於在起點就放棄了通用操作的可能性。

更重要的是，多指手必須搭配觸覺感測。Malik 展示了 Meta 開發的 Digit 360 感測器，它能達到接近人類皮膚的力覺解析度。實驗結果很清楚：在手中旋轉物體的任務上，視覺加觸覺的組合顯著優於單獨使用視覺或單獨使用觸覺。這個優勢在不同的機器人手和不同的任務上都一致成立。如果你只記住這場演講的一張投影片，Malik 說，應該是這張：多指手加觸覺感測是靈巧操作的必要條件。

小孩一小時摔一百次，機器人也該這樣練

問答環節有人問了一個很實際的問題：讓機器人在真實世界中探索學習，安全怎麼辦？

Malik 的回答再次回到兒童發展研究。研究顯示，學走路的小孩一個小時可以摔倒一百次。這個數字乍聽驚人，但小孩的身體天生就為此做了準備：他們很矮、重心低、身體柔軟，摔倒的後果通常微不足道。一個九十歲的老人摔一次可能骨折住院，但一歲的小孩摔倒就是站起來繼續走。

對機器人來說，模擬環境就是那個安全的遊樂場，你可以摔無數次都不會壞。而當策略在模擬中已經達到百分之九十五的可靠度，要轉移到真實世界時，可以引入控制理論中的障壁函數（barrier function）來確保安全——本質上就是設定一些物理限制，讓機器人不會做出可能損壞自己或環境的動作。

另一個有趣的問答涉及「演化先驗」（evolutionary priors）的問題。人類小孩出生時就帶著基因組裡編碼的先天傾向：天生就想探索、想抓東西、想站起來走。視覺從模糊開始（等效於低解析度），運動從粗大的力量抓握開始，然後逐漸發展出精細的控制。機器人沒有這些先天優勢。Malik 坦承，目前這些先驗必須由人類工程師以獎勵函數和訓練課程的形式顯式設計進去。這跟 LLM 訓練其實是一樣的道理——看似端到端的學習系統，背後仍然是人類在設計資料策展策略、網路架構、訓練階段，這些選擇本身就是一種先驗知識的注入。

我的觀察

Malik 這場演講最有價值的不是他展示了什麼酷炫的機器人影片，而是他敢於正面挑戰當前機器人領域最主流的技術假設。在一個幾乎所有頂尖實驗室都在走「VLM + 機器人動作」路線的時候，他明確說這條路是錯的。這需要相當的學術勇氣。

他的「亞里斯多德、歐幾里得、牛頓」三層框架是一個非常好的思考工具。它解釋了為什麼我們看到的機器人 demo 總是讓人興奮三秒鐘然後就忘了——因為那些 demo 通常只展示了亞里斯多德層面的能力（機器人聽懂了指令、做了大致正確的動作），但在歐幾里得和牛頓層面的可靠性和泛化能力遠遠不足。一個機器人能在精心準備的環境中成功一次，跟它能在任意廚房裡穩定地重複一千次，是完全不同的事情。

另一個讓我印象深刻的觀點是「語言是有損壓縮」這個洞察。我們太習慣用語言思考了，以至於忘記了語言描述不了的東西有多少。你試試用文字精確描述怎麼打一個蝴蝶結——你會發現這幾乎不可能。但一個五歲小孩看一遍就能學會。這不是語言的失敗，而是語言本來就不是為了描述精細運動而演化出來的。承認這一點，才能真正理解為什麼純語言模型不可能解決機器人操作的問題。

不過，Malik 的路線也面臨一個他沒有完全回答的挑戰：時間。「真實到模擬再到真實」的 pipeline 每一步都需要大量的電腦視覺研究突破——從影片重建 3D、從 3D 重定向到不同身體、在模擬中訓練可靠的策略——這些都還在研究階段。而那些他批評的「VLM + 動作」路線，至少在短期內能快速出 demo、拿到融資、推進商業化。學術上正確的路線和商業上可行的路線之間的張力，恐怕會持續存在好一陣子。