AI 技術前沿

別再用 LLM 做機器人：柏克萊教授提出「亞里斯多德、歐幾里德、牛頓」三層框架

加州大學柏克萊分校講座教授 Jitendra Malik 在 CMU 研討會上提出機器人學的三層理解框架，直指當前 AI 圈過度依賴大語言模型的盲點。他認為語言本質上是有損壓縮，無法表達機器人操作所需的精細運動軌跡和接觸力，主流的 VLM 加動作輸出路線只觸及了三層中最表面的一層。

2026 年 3 月 3 日 · 來源： CMU Robotics Institute

封面圖

本文整理自卡內基美隆大學機器人研究所 2026 年 2 月的研討會演講。

每週都有人宣稱機器人問題解決了

如果你經常刷 X（前 Twitter），大概會覺得機器人技術每週都在出現重大突破。今天有人展示了雙臂機器人摺衣服，明天又有人秀出人形機器人搬箱子，每則貼文下面都是一片驚嘆。加州大學柏克萊分校 Arthur J. Chick 講座教授 Jitendra Malik 今年二月在卡內基美隆大學的一場研討會上，開頭就拿這件事開玩笑：他之所以不相信機器人本週被解決了，是因為它上週就已經被解決了。

笑話背後是一個嚴肅的判斷。Malik 是電腦視覺領域的教父級人物，他的研究成果包括開啟深度學習物體偵測時代的 R-CNN、定義影像分割方法論的 Normalized Cuts，Google Scholar 引用數超過 15 萬次，是美國國家科學院、國家工程院和藝術與科學院的三院院士。2026 年 1 月，他從 Meta FAIR 轉任亞馬遜（Amazon）前沿 AI 與機器人研究團隊（FAR）的副總裁。這樣一位在學術和產業兩端都有深厚歷練的人，對機器人技術的現況給出了一個不太客氣的評估：導航接近解決了，行走取得了不錯的進展，但操作（manipulation）離解決還遠得很。

這個判斷背後有一個半世紀前就被提出的概念：莫拉維克悖論（Moravec's Paradox）。卡內基美隆大學機器人學家漢斯．莫拉維克（Hans Moravec）在 1988 年觀察到，人類覺得很難的事情（比如下棋、做數學），對電腦來說反而相對容易；但人類覺得輕而易舉的事情（比如五歲小孩都會的抓取、倒水、開瓶蓋），對機器人來說卻難得要命。社群媒體上那些看起來很厲害的機器人展示，多半是在精心控制的環境下完成的單一任務，離「在任何一間 Airbnb 裡自如地打開冰箱拿出牛奶」這種五歲小孩的日常，還有很長的距離。

機器人需要三種智慧：亞里斯多德、歐幾里德、牛頓

Malik 在演講中提出了一個框架，用三位歷史人物來代表機器人操作所需的三個層次的理解。這個框架的核心主張是：當前 AI 圈的主流做法只碰到了最表層，而真正的難題藏在更深的兩層。

第一層是亞里斯多德（Aristotle）的層次，也就是目標和計畫。你想做一份歐姆蛋？先打蛋、加調味料、加熱平底鍋、倒入蛋液、翻面、起鍋。這種高階的任務規劃，大型語言模型確實做得不錯。你問 ChatGPT 怎麼做歐姆蛋，它能給你一份合理的步驟清單。但 Malik 的重點是：這只是三層中的第一層，而當前主流做法基本上就停在這裡。

第二層是歐幾里德（Euclid）的層次，也就是四維時空中的運動軌跡。當你說「拿起來」這三個字，背後其實藏著無數種可能的動作：用拇指和食指的精密捏取（pincer grasp）、整隻手的力量抓握（power grasp）、雙手合抱、從下方托起。每一種抓取方式對應完全不同的手指軌跡、關節角度和時序控制。語言根本無法精確描述這些細節，因為語言本質上是一種「有損壓縮」機制：它把豐富的物理動作壓縮成幾個簡短的詞彙，在溝通效率上很棒，但在執行精度上完全不夠用。

第三層是牛頓（Newton）的層次，也就是接觸力和力矩。F=ma 支配著所有物理操作。你用多大的力捏住一顆雞蛋？太輕會滑掉，太重會捏碎。這些力的資訊在影片中完全看不到，在語言中更是無從表達。Malik 認為，觸覺感測（tactile sensing）在這個層次扮演不可或缺的角色，就像視覺之於導航一樣，觸覺之於操作是同等重要的感知模態。他總結得很直接：亞里斯多德、歐幾里德和牛頓，三者對機器人學缺一不可，不要因為 LLM 的時代而以為機器人問題也能靠 LLM 解決。

「語言帝國主義」：為什麼 VLM 加動作輸出走不通

Malik 用了一個相當挑釁的詞彙來描述當前 AI 領域的思維傾向：「語言帝國主義」（language imperialism）。他指的是一種普遍假設：智慧等於語言能力，因此只要把大語言模型或視覺語言模型（VLM）接上機器人的動作輸出，就能打造出通用的機器人基礎模型。

他的反駁從演化史開始。智慧最早出現在大約 5.5 億年前的寒武紀，那時候的小動物能移動、能看見、能在不同地方找到食物。如果把智慧的演化史壓縮成 24 小時，語言大概在最後幾分鐘才出現。運動智慧比語言智慧古老得多，也基礎得多。把語言當成智慧的核心基底，在演化的尺度上根本說不通。Malik 同時推薦了 Barbara Tversky 的著作《Mind in Motion》，強調空間思維和身體動作在認知中的優先地位。

Malik 進一步指出當前主流路線的具體問題。很多團隊的做法是：拿一個預訓練好的 VLM（本質上還是以語言為核心），然後在末端加入機器人動作的 token，用遙控操作收集的資料去微調。他的批評是，這種做法只能處理三層框架中的第一層（目標和計畫），完全碰不到第二層（精細的運動軌跡）和第三層（接觸力）。它能告訴機器人「去拿那個杯子」，但沒辦法告訴機器人的手指該用什麼角度、什麼力道、什麼時序去完成這個動作。

他知道這是一個有爭議的立場。他在演講中直接說：「我知道這有爭議，因為目前機器人學的主流範式就是這麼做的。」但他沒有迴避，反而用了一個清楚的框架來說明為什麼這條路走不通。這種知道自己在挑戰主流、但依然直說的態度，在學術界其實不常見。對一個已經功成名就、三院院士的學者來說，他沒有必要跳出來得罪人，但他選擇了表態。

別再用夾爪了：多指手的百萬畫素類比

Malik 對另一個業界常見做法同樣毫不留情：用平行夾爪（parallel jaw gripper）作為機器人的末端執行器。他的類比非常直接：使用平行夾爪做家庭機器人，就像把你的百萬畫素手機相機扔掉，換成一個 16×16 畫素的感光元件。沒錯，16×16 畫素「技術上」可以辨識林肯的臉，但沒有人會認為這就夠了。

平行夾爪之所以普遍，是因為它簡單。兩根手指、一個自由度、開合就好。但 Malik 的論點是：家庭環境中的操作任務，需要的抓取方式遠超過「開合」所能覆蓋的範圍。倒水、轉瓶蓋、摺衣服、打蛋，每一個動作都需要不同的手指組合和力道控制。他的實驗室只使用多指手（multi-fingered hand）做研究，搭配 Meta 開發的 Digit 360 觸覺感測器，能達到接近人類皮膚的力解析度。

實驗數據支持他的主張。在手內物體旋轉（in-hand object rotation）的任務中，視覺加觸覺的表現顯著優於單獨使用視覺或單獨使用觸覺。這個結果在不同的機器人手和不同的任務上都一致。Malik 把這張實驗結果投影片稱為整場演講最重要的一張：多指手加上觸覺感測，是具備操作能力的機器人的必要條件，不是可有可無的加分項。

他在演講結尾提出的研究策略也同樣務實：與其追求複雜任務的驚豔展示（成功率可能只有三成），不如先把大約 20 個基本原子技能（倒、抓、插、轉、推等）做到高可靠度和高泛化性，然後再組合成複雜行為。如果一個原子技能的可靠度只有 80%，五個串在一起的整體成功率就只剩 33%。先把每個基本功做到 99%，複雜任務的成功率才有保障。這種「先練基本功再組合」的思路，在當前追求大展示、大模型的氛圍中顯得有點反潮流，但工程邏輯上完全站得住腳。

當電腦視覺教父選擇了機器人

Malik 在 2026 年初離開 Meta FAIR 轉投 Amazon FAR，這個動作本身就是一個訊號。他沒有選擇另一間大語言模型實驗室，而是選擇了一間正在大力投資實體機器人的公司。對一位已經拿遍了電腦視覺領域所有重要獎項的學者來說，這個轉向說明他真的認為具身 AI 是下一個值得全力投入的領域。

他在這場演講中展現的，不只是對機器人技術的深入理解，更是一種對當前 AI 發展方向的根本質疑。當整個產業都在忙著把 LLM 接上各種東西（包括機器人），Malik 站出來說：慢一點，機器人需要的智慧有三層，語言只碰到了最上面那一層。中間兩層，也就是精細的運動軌跡和接觸力的物理學，是語言模型根本觸及不到的。

這不代表 LLM 在機器人學中毫無用處。Malik 承認 LLM 在任務規劃層面做得很好。但他堅持認為，把一個基本上是語言模型的東西當作機器人的核心架構，是搞錯了方向。真正的挑戰在下面兩層，而那裡需要的是完全不同的方法、資料和感測器。這場 67 分鐘的演講，是近期機器人學領域最清晰的一次反主流論述。不管你是否同意他的每一個判斷，他提出的三層框架至少值得認真消化。