機器人該像小孩一樣學習:從圖靈 75 年前的預言到今天的具體方案
Jitendra Malik 援引圖靈 1950 年「模擬兒童心智」的提議,結合兒童發展研究的五大原則,提出 real-to-sim-to-real 機器人學習路線。他的 VideoMimic 系統已經讓人形機器人學會在從未見過的複雜地形上行走,下一步是將同樣方法擴展到靈巧操作。


本文整理自卡內基美隆大學機器人研究所 2026 年 2 月的研討會演講。
{{< youtube ry8itipzBFE >}}
圖靈 75 年前的提議
1950 年,艾倫.圖靈(Alan Turing)在那篇開創性的論文中寫了一段常被忽略的話:與其嘗試製作一個模擬成人心智的程式,不如試著製作一個模擬兒童心智的程式,如果讓它接受適當的教育,就能獲得成人的大腦。這段話在 AI 發展史上沒有得到太多關注,因為後來的研究走上了另一條路:直接教機器做成人會做的事,用海量資料灌出成人級別的語言能力。
75 年後,加州大學柏克萊分校 Arthur J. Chick 講座教授 Jitendra Malik 在卡內基美隆大學的一場研討會上,把圖靈這段話重新搬上了舞台。他的論點是:圖靈當年說對了,但我們花了 75 年才準備好去實踐這個想法。過去幾十年的兒童發展研究累積了大量關於人類如何學習運動技能的知識,而電腦視覺和物理模擬技術的進步讓我們能夠把這些知識轉化為具體的工程方法。
Malik 不是一個喜歡空談的理論家。他是 R-CNN 的共同作者(這個系統開啟了深度學習物體偵測的整個時代),Google Scholar 引用數超過 15 萬次,美國三院院士(國家科學院、國家工程院、藝術與科學院)。2026 年 1 月,他從 Meta FAIR 轉任亞馬遜(Amazon)前沿 AI 與機器人研究團隊(FAR)的副總裁。他的研究方向正從電腦視覺全面轉向具身 AI,而「兒童發展」是他為機器人學習繪製的核心路線圖。
機器人的三科成績單:一科接近滿分、一科及格、一科不及格
Malik 把機器人能力分成三個領域來評估:導航、行走、操作。三科的進度差距非常大。
導航他認為「接近解決了」。他的團隊開發的 GOAT(Go to Anything)系統,能讓機器人在一間從沒去過的 Airbnb 裡,邊探索邊建立語意和幾何地圖,找到電視機、盆栽等指定物品。整套系統採用模組化架構,結合基礎視覺模型和在模擬環境中訓練的探索策略,在超過 200 個物體實例上展現了泛化能力。Malik 認為,這種模組化方法(把視覺理解和探索策略分開處理)的效果明顯優於端對端訓練。
行走取得了紮實的進展。Malik 團隊的 Digit 人形機器人能在登山步道上行走,還能爬上舊金山最陡的街道 Bradford Street(坡度 41%)。訓練方法是在物理模擬器中用強化學習搭配域隨機化(domain randomization),然後零樣本部署到真實世界,中間不需要任何微調。不過全身協調控制和感知式行走(用眼睛看路來調整步態)仍然是開放問題。Malik 援引蘇聯運動生理學家 Nikolai Bernstein 的理論指出,人形機器人的自由度(關節數量)越多,控制的搜尋空間就呈指數級膨脹,這是一個根本性的工程挑戰。
操作是三科中成績最差的。Malik 直接引用莫拉維克悖論:五歲小孩都會的抓取、倒水、開瓶蓋,對機器人來說依然是巨大的挑戰。社群媒體上的展示多半是在精心控制環境下的單一任務成果,離真正的泛化能力還有很長距離。他認為操作之所以難,核心原因不只是演算法不夠好,而是整個問題的結構和導航、行走根本不同:操作涉及接觸力學、物體多樣性、以及語言無法表達的精細動作,需要全新的方法論。
兒童發展研究的五個啟示
Malik 援引了 Linda Smith 和 Michael Gasser 對兒童發展研究的綜合整理,從中提煉出五個對機器人學習有直接啟發的原則。這不是隨意的類比,而是他整個研究路線的理論基礎。
第一是多模態感知。嬰兒從出生起就同時使用視覺、觸覺和本體感覺(proprioception)來認識世界。他們不是先學會看再學會摸,而是從一開始就整合多種感官資訊。Malik 認為機器人也必須如此:視覺、觸覺和力覺需要從訓練的第一天就同時使用,不能先訓練一個純視覺模型再「加上」觸覺。
第二是漸進式的階層控制。嬰兒的視覺一開始是模糊的(相當於低解析度),運動控制從粗大的力量抓握開始,逐漸發展出精細的手指操作。這暗示機器人訓練也應該從簡單的技能開始,逐步增加複雜度和精細度,而不是一開始就嘗試端對端的複雜操作。有趣的是,這和大語言模型訓練中的「課程學習」(curriculum learning)概念有異曲同工之處,但 Malik 強調機器人的課程設計需要考慮物理約束,不只是資料排列順序。
第三是具身特異性學習。不同的身體需要不同的動作方案。小孩學走路的方式和小狗不同,因為身體結構不同。Malik 對「跨具身通用策略」(cross-embodiment policy)持懷疑態度,認為一個通用策略必然是次優的。正確的做法是:開發一套能適用於不同具身形態的「學習方法論」,就像高階程式語言可以編譯成不同機器的組合語言,方法論通用,但最終的策略必須針對具體身體客製化。
第四是社會學習的價值。小孩通過觀察大人來學習:看媽媽怎麼倒水,然後自己試著模仿。觀察提供了動作的高階框架,但真正的技能習得發生在自己動手練習的階段。這個「先觀察、再練習」的模式,正是 Malik 提出的「real-to-sim-to-real」流程的核心靈感。
第五是語言在運動學習中的角色有限。小孩不是聽著語言指導學會走路的,他們是靠身體反覆練習、靠感覺回饋來微調每一個動作。語言主要提供高階指令(「把那個拿給我」),但不提供執行細節。這呼應了 Malik 對「語言帝國主義」的批評:過度依賴語言模型來驅動機器人,等於忽略了運動學習中語言根本不參與的那些層面。
從影片到機器人行走:VideoMimic 的實踐
Malik 不只提理論。他已經有了一個具體的實踐案例:VideoMimic 系統。
VideoMimic 的基本流程是這樣的:讓人類在真實環境中執行運動任務(比如爬樓梯),用影片記錄下來。然後透過電腦視覺技術(HMR 用於全身重建、HaMeR 用於手部重建)把人體的 3D 運動軌跡從影片中重建出來。接著把這些軌跡「重定向」(retarget)到機器人的身體結構上,考慮人類和機器人之間的身體差異。最後在物理模擬器中用強化學習訓練出一個控制策略,部署到真實機器人。
這整套流程就是 Malik 所說的「real-to-sim-to-real」:從真實世界觀察(real),在模擬器中學習(sim),再回到真實世界執行(real)。它直接對應兒童學習的模式:先看大人怎麼做(觀察階段),然後在自己的身體上反覆練習(具身執行階段)。觀察提供了動作的高階框架和目標,模擬器中的強化學習則讓機器人在自己的身體約束下找到最佳的執行方式。
實際效果相當不錯。經過這套流程訓練的 Digit 人形機器人,能在柏克萊校園裡爬樓梯和穿越複雜地形,而且這些具體環境在訓練時從未出現過。關鍵在於,機器人不只是盲目地重播動作序列,它使用了視覺感知來即時判斷地形、調整步態,這就是所謂的「感知式行走」(perceptive locomotion)。能泛化到從未見過的環境,說明訓練學到的不只是特定動作,而是更底層的行走能力。
下一步:從行走到靈巧操作
VideoMimic 在行走任務上驗證了 real-to-sim-to-real 流程的可行性,但 Malik 的最終目標是把同樣的方法論擴展到靈巧操作(dexterous manipulation)。
路徑已經畫好了。用影片記錄人類的手部操作(比如倒水、轉瓶蓋),透過 HaMeR 重建手部 3D 運動,透過 SAM 3D(與 Meta 合作開發的 3D 重建系統)重建物體的完整三維形狀,把手物互動的 4D 軌跡(三維空間加時間)導入模擬器,然後訓練多指機器人手去執行同樣的任務。SAM 3D 是這條路上的關鍵技術突破,它能從普通的 2D 影片中重建物體的完整 3D 形狀,讓 YouTube 上數以億計的操作影片都有潛力成為機器人訓練的素材。
但 Malik 也坦承,從行走到操作的跨越並不簡單。行走主要涉及四肢的粗大動作,而操作涉及手指的精細控制和接觸力的管理。影片中完全看不到力的資訊,所以 real-to-sim-to-real 流程在操作領域需要額外的元素:模擬器中精確的接觸力學模型,以及真實世界中的觸覺感測器。他強調,多指手配合觸覺感測(如 Digit 360 感測器,力解析度接近人類皮膚)是通往靈巧操作的必要條件。實驗數據已經證明,在手內物體旋轉等任務中,視覺加觸覺的組合顯著優於單獨使用任一模態。
目前模擬器中的靈巧操作訓練已經展現了初步成果。Malik 的團隊在模擬環境中成功訓練了多指手執行各種操作任務,下一步是完成從模擬到真實世界的遷移。他預估這條路可能還需要一到兩年才能在操作領域達到像行走那樣的成熟度,但方向是明確的,每一步需要什麼技術也講得很清楚。
不是空談:一套可追蹤的研究議程
Malik 的演講讓人留下深刻印象的地方在於,他不只是批評現有做法(雖然他確實批評了不少),更提出了一套結構清晰的替代方案。從兒童發展的觀察中提煉原則,用電腦視覺技術把這些原則轉化為工程流程,在行走上先驗證、再擴展到操作。每一步都有具體的系統名稱(GOAT、VideoMimic、SAM 3D、HaMeR),每一步的進展和限制都講得很明確。
在機器人學這個充滿宏大敘事和模糊承諾的領域裡,這種「我做了什麼、下一步要做什麼、目前做不到什麼」的坦率風格本身就很稀缺。Malik 在 Q&A 環節也展現了同樣的坦率,被問到機器人探索的安全問題時,他引用了一個令人驚訝的研究數據:學走路的小孩每小時可以摔倒 100 次。小孩能承受這麼多次摔倒,是因為他們的身體柔軟、重心低。對機器人來說,模擬器中的探索是天然安全的,而真實世界的微調則需要控制理論的安全保障(如 barrier function),在策略達到大約 95% 可靠度之後才能開始。
圖靈 75 年前提出了模擬兒童心智的構想。Malik 正在用現代技術把這個構想一步步變成工程現實。能走多遠還不確定,但至少他已經示範了前幾步怎麼走,而且路徑足夠清楚,讓其他研究者可以沿著走、或者提出更好的替代方案。