別再用 LLM 做機器人:柏克萊教授提出「亞里斯多德、歐幾里德、牛頓」三層框架

加州大學柏克萊分校講座教授 Jitendra Malik 在 CMU 研討會上提出機器人學的三層理解框架,直指當前 AI 圈過度依賴大語言模型的盲點。他認為語言本質上是有損壓縮,無法表達機器人操作所需的精細運動軌跡和接觸力,主流的 VLM 加動作輸出路線只觸及了三層中最表面的一層。

別再用 LLM 做機器人:柏克萊教授提出「亞里斯多德、歐幾里德、牛頓」三層框架

封面圖

本文整理自卡內基美隆大學機器人研究所 2026 年 2 月的研討會演講。

{{< youtube ry8itipzBFE >}}


每週都有人宣稱機器人問題解決了

如果你經常刷 X(前 Twitter),大概會覺得機器人技術每週都在出現重大突破。今天有人展示了雙臂機器人摺衣服,明天又有人秀出人形機器人搬箱子,每則貼文下面都是一片驚嘆。加州大學柏克萊分校 Arthur J. Chick 講座教授 Jitendra Malik 今年二月在卡內基美隆大學的一場研討會上,開頭就拿這件事開玩笑:他之所以不相信機器人本週被解決了,是因為它上週就已經被解決了。

笑話背後是一個嚴肅的判斷。Malik 是電腦視覺領域的教父級人物,他的研究成果包括開啟深度學習物體偵測時代的 R-CNN、定義影像分割方法論的 Normalized Cuts,Google Scholar 引用數超過 15 萬次,是美國國家科學院、國家工程院和藝術與科學院的三院院士。2026 年 1 月,他從 Meta FAIR 轉任亞馬遜(Amazon)前沿 AI 與機器人研究團隊(FAR)的副總裁。這樣一位在學術和產業兩端都有深厚歷練的人,對機器人技術的現況給出了一個不太客氣的評估:導航接近解決了,行走取得了不錯的進展,但操作(manipulation)離解決還遠得很。

這個判斷背後有一個半世紀前就被提出的概念:莫拉維克悖論(Moravec's Paradox)。卡內基美隆大學機器人學家漢斯.莫拉維克(Hans Moravec)在 1988 年觀察到,人類覺得很難的事情(比如下棋、做數學),對電腦來說反而相對容易;但人類覺得輕而易舉的事情(比如五歲小孩都會的抓取、倒水、開瓶蓋),對機器人來說卻難得要命。社群媒體上那些看起來很厲害的機器人展示,多半是在精心控制的環境下完成的單一任務,離「在任何一間 Airbnb 裡自如地打開冰箱拿出牛奶」這種五歲小孩的日常,還有很長的距離。

機器人需要三種智慧:亞里斯多德、歐幾里德、牛頓

Malik 在演講中提出了一個框架,用三位歷史人物來代表機器人操作所需的三個層次的理解。這個框架的核心主張是:當前 AI 圈的主流做法只碰到了最表層,而真正的難題藏在更深的兩層。

第一層是亞里斯多德(Aristotle)的層次,也就是目標和計畫。你想做一份歐姆蛋?先打蛋、加調味料、加熱平底鍋、倒入蛋液、翻面、起鍋。這種高階的任務規劃,大型語言模型確實做得不錯。你問 ChatGPT 怎麼做歐姆蛋,它能給你一份合理的步驟清單。但 Malik 的重點是:這只是三層中的第一層,而當前主流做法基本上就停在這裡。

第二層是歐幾里德(Euclid)的層次,也就是四維時空中的運動軌跡。當你說「拿起來」這三個字,背後其實藏著無數種可能的動作:用拇指和食指的精密捏取(pincer grasp)、整隻手的力量抓握(power grasp)、雙手合抱、從下方托起。每一種抓取方式對應完全不同的手指軌跡、關節角度和時序控制。語言根本無法精確描述這些細節,因為語言本質上是一種「有損壓縮」機制:它把豐富的物理動作壓縮成幾個簡短的詞彙,在溝通效率上很棒,但在執行精度上完全不夠用。

第三層是牛頓(Newton)的層次,也就是接觸力和力矩。F=ma 支配著所有物理操作。你用多大的力捏住一顆雞蛋?太輕會滑掉,太重會捏碎。這些力的資訊在影片中完全看不到,在語言中更是無從表達。Malik 認為,觸覺感測(tactile sensing)在這個層次扮演不可或缺的角色,就像視覺之於導航一樣,觸覺之於操作是同等重要的感知模態。他總結得很直接:亞里斯多德、歐幾里德和牛頓,三者對機器人學缺一不可,不要因為 LLM 的時代而以為機器人問題也能靠 LLM 解決。

「語言帝國主義」:為什麼 VLM 加動作輸出走不通

Malik 用了一個相當挑釁的詞彙來描述當前 AI 領域的思維傾向:「語言帝國主義」(language imperialism)。他指的是一種普遍假設:智慧等於語言能力,因此只要把大語言模型或視覺語言模型(VLM)接上機器人的動作輸出,就能打造出通用的機器人基礎模型。

他的反駁從演化史開始。智慧最早出現在大約 5.5 億年前的寒武紀,那時候的小動物能移動、能看見、能在不同地方找到食物。如果把智慧的演化史壓縮成 24 小時,語言大概在最後幾分鐘才出現。運動智慧比語言智慧古老得多,也基礎得多。把語言當成智慧的核心基底,在演化的尺度上根本說不通。Malik 同時推薦了 Barbara Tversky 的著作《Mind in Motion》,強調空間思維和身體動作在認知中的優先地位。

Malik 進一步指出當前主流路線的具體問題。很多團隊的做法是:拿一個預訓練好的 VLM(本質上還是以語言為核心),然後在末端加入機器人動作的 token,用遙控操作收集的資料去微調。他的批評是,這種做法只能處理三層框架中的第一層(目標和計畫),完全碰不到第二層(精細的運動軌跡)和第三層(接觸力)。它能告訴機器人「去拿那個杯子」,但沒辦法告訴機器人的手指該用什麼角度、什麼力道、什麼時序去完成這個動作。

他知道這是一個有爭議的立場。他在演講中直接說:「我知道這有爭議,因為目前機器人學的主流範式就是這麼做的。」但他沒有迴避,反而用了一個清楚的框架來說明為什麼這條路走不通。這種知道自己在挑戰主流、但依然直說的態度,在學術界其實不常見。對一個已經功成名就、三院院士的學者來說,他沒有必要跳出來得罪人,但他選擇了表態。

別再用夾爪了:多指手的百萬畫素類比

Malik 對另一個業界常見做法同樣毫不留情:用平行夾爪(parallel jaw gripper)作為機器人的末端執行器。他的類比非常直接:使用平行夾爪做家庭機器人,就像把你的百萬畫素手機相機扔掉,換成一個 16×16 畫素的感光元件。沒錯,16×16 畫素「技術上」可以辨識林肯的臉,但沒有人會認為這就夠了。

平行夾爪之所以普遍,是因為它簡單。兩根手指、一個自由度、開合就好。但 Malik 的論點是:家庭環境中的操作任務,需要的抓取方式遠超過「開合」所能覆蓋的範圍。倒水、轉瓶蓋、摺衣服、打蛋,每一個動作都需要不同的手指組合和力道控制。他的實驗室只使用多指手(multi-fingered hand)做研究,搭配 Meta 開發的 Digit 360 觸覺感測器,能達到接近人類皮膚的力解析度。

實驗數據支持他的主張。在手內物體旋轉(in-hand object rotation)的任務中,視覺加觸覺的表現顯著優於單獨使用視覺或單獨使用觸覺。這個結果在不同的機器人手和不同的任務上都一致。Malik 把這張實驗結果投影片稱為整場演講最重要的一張:多指手加上觸覺感測,是具備操作能力的機器人的必要條件,不是可有可無的加分項。

他在演講結尾提出的研究策略也同樣務實:與其追求複雜任務的驚豔展示(成功率可能只有三成),不如先把大約 20 個基本原子技能(倒、抓、插、轉、推等)做到高可靠度和高泛化性,然後再組合成複雜行為。如果一個原子技能的可靠度只有 80%,五個串在一起的整體成功率就只剩 33%。先把每個基本功做到 99%,複雜任務的成功率才有保障。這種「先練基本功再組合」的思路,在當前追求大展示、大模型的氛圍中顯得有點反潮流,但工程邏輯上完全站得住腳。

當電腦視覺教父選擇了機器人

Malik 在 2026 年初離開 Meta FAIR 轉投 Amazon FAR,這個動作本身就是一個訊號。他沒有選擇另一間大語言模型實驗室,而是選擇了一間正在大力投資實體機器人的公司。對一位已經拿遍了電腦視覺領域所有重要獎項的學者來說,這個轉向說明他真的認為具身 AI 是下一個值得全力投入的領域。

他在這場演講中展現的,不只是對機器人技術的深入理解,更是一種對當前 AI 發展方向的根本質疑。當整個產業都在忙著把 LLM 接上各種東西(包括機器人),Malik 站出來說:慢一點,機器人需要的智慧有三層,語言只碰到了最上面那一層。中間兩層,也就是精細的運動軌跡和接觸力的物理學,是語言模型根本觸及不到的。

這不代表 LLM 在機器人學中毫無用處。Malik 承認 LLM 在任務規劃層面做得很好。但他堅持認為,把一個基本上是語言模型的東西當作機器人的核心架構,是搞錯了方向。真正的挑戰在下面兩層,而那裡需要的是完全不同的方法、資料和感測器。這場 67 分鐘的演講,是近期機器人學領域最清晰的一次反主流論述。不管你是否同意他的每一個判斷,他提出的三層框架至少值得認真消化。