從 Cosmos 3 到人形機器人:NVIDIA 的 Physical AI 佈局,要讓機器學會理解真實世界
NVIDIA 在 GTC Taipei 2026 發表 Cosmos 3 世界基礎模型、Alpamayo 2 自駕車推理模型和 Isaac Groot 人形機器人參考平台。黃仁勳指出 Physical AI 最大的挑戰是資料,Cosmos 3 用合成資料來突破這個瓶頸。

本文整理自 NVIDIA GTC Taipei 2026 主題演講,2026 年 5 月 28 日。
{{< youtube wSp6AiNIrsY >}}
Physical AI 最大的敵人是資料
黃仁勳(Jensen Huang)在整場 GTC Taipei 2026 演講中花了大量時間在資料中心和 PC 上,但他把最後一段留給了 Physical AI。他開場就點出一個根本性的問題:語言模型可以用網路上人類寫的文字來訓練,因為文字資料幾乎是無限的。但機器人和自駕車需要的是「第一人稱視角」的資料,也就是從機器的眼睛看出去的影像、感測器數據和行動軌跡。這種資料在網路上幾乎不存在。YouTube 上的影片絕大多數是第三人稱的旁觀視角,沒有機器人需要的深度資訊、觸覺回饋和行動標註。
這個資料瓶頸解釋了為什麼自駕車和機器人的進展比語言 AI 慢這麼多。語言模型可以靠規模定律(scaling laws)持續進步,只要灌更多資料、用更大的模型、砸更多算力就行。但 Physical AI 連訓練資料的來源都是問題。你不能叫一萬台機器人上街跑個幾年來蒐集資料,這太危險也太昂貴。黃仁勳提出的解法是一條「自助式資料產生梯」:先用遙控操作(teleoperation)讓人類示範給機器看,然後用模擬(Omniverse)生成更多場景,接著用世界模型把第三人稱影片轉換成第一人稱視角,最終建立能從任何角度理解物理世界的基礎模型。
Cosmos 3:同時能看、能想、能生成的世界模型
Cosmos 3 是 NVIDIA 發表的 Physical AI 世界基礎模型,架構上稱為「混合 Transformer」(mixture of transformers),把自回歸 Transformer(負責推理和規劃)和擴散 Transformer(負責生成)結合在一起。它能同時處理影像(pixels)、動作(action)、聲音(sound)和語言(language),是一個真正的多模態模型。
Cosmos 3 有四種運作模式。第一,作為視覺語言模型(VLM),它可以觀看真實世界的影像並描述場景內容,理解物件的空間關係和物理特性。第二,作為世界模型(world model),它可以從一張圖片或一段文字生成符合物理法則的合成影片,為機器人提供訓練資料。第三,作為模擬器(simulator),它可以在閉環(closed-loop)環境中訓練和評估 agent 的策略,機器人在虛擬環境中做出動作,Cosmos 根據物理法則回應結果。第四,透過 OmniDreams 功能,它可以作為「行動條件化世界模型」(action-conditioned world model),根據機器人的動作指令即時生成對應的視覺回饋。
跟 NemoTron 一樣,Cosmos 3 採用完全開源策略:模型權重、訓練資料、訓練腳本全部公開。黃仁勳在這一點上的態度很明確:NVIDIA 認為自己是 Physical AI 基礎模型領域的全球領導者,他用了一句話概括,「In physical AI, we are absolutely the world's best。」他願意開源,是因為越多人用 Cosmos 訓練機器人,就需要越多 NVIDIA 的 GPU 來跑模擬和推論。
Alpamayo 2:會「思考出聲」的自駕車
在自駕車領域,NVIDIA 發表了 Alpamayo 2,這是一個開源的自駕車推理模型,跑在 NVIDIA Hyperion 硬體平台上,搭配 Halos 作業系統。黃仁勳給出的數字很驚人:已經簽約採用 NVIDIA Hyperion 的汽車製造商,產量合計佔全球汽車總產量的約 80%。全球約 97% 的移動服務(ride-hailing、物流等)也在對接 NVIDIA 的平台。
台上播放了一段 Mercedes-Benz(賓士)搭載 Alpamayo 的示範影片。這段影片最特別的地方不是車子的駕駛表現,而是車子在行駛過程中會即時「說出」自己的思考過程。遇到行人過馬路,它會說「前方有行人,讓行」。前車突然停下,它會說「前車停止,向左偏移繞行」。有車輛從旁邊插入車道,它會說「右側車輛切入,減速讓行」。黃仁勳稱這是「thinking out loud」(思考出聲),本質上跟語言模型的 Chain-of-Thought 推理是同一回事:讓模型把推理過程外顯化,既方便除錯,也增加乘客的信任感。
黃仁勳強調,自駕車用的 agentic computing 模式跟雲端 AI 完全一樣:模型加 harness 加工具加 runtime。差異只在部署環境不同。這意味著 NVIDIA 為資料中心開發的 AI 軟體棧,很大一部分可以直接移植到車上。這種跨平台的統一架構直接壓低了開發成本,也是為什麼這麼多車廠願意押注 NVIDIA 平台的原因之一。
Isaac Groot:給大學研究者的人形機器人
演講最後,黃仁勳搬出了一個實體驚喜:Isaac Groot 人形機器人。這台機器人由 Sharpa 公司製造,身高 6 英尺(約 183 公分)、體重 150 磅(約 68 公斤),全身有 31 個自由度,每隻手有 25 個自由度。黃仁勳開了個玩笑,說這台機器人的規格跟他本人很像,只是第一個數字(身高)矮了一點,第二個數字(體重)大了一點。
Isaac Groot 不是消費性產品,它的目標使用者是大學和研究機構。黃仁勳指出,目前機器人研究最大的痛點是前期準備工作太耗時。一個研究團隊光是組裝硬體、串接感測器、設定模擬環境、建立資料管線,往往就要花好幾個月,真正的研究還沒開始就被基礎設施拖垮了。Isaac Groot 的定位是一台「開箱即用」的研究平台:硬體預先整合好,搭配完整的 Isaac 軟體棧(Isaac Lab 模擬、Groot 模型、資料產生器、訓練基礎設施),還有 Thor 運算晶片。黃仁勳說研究者收到機器人後,幾小時內就能開始做實驗,不用花幾個月在搞基礎設施。
這台機器人的手特別值得一提。每隻手 25 個自由度意味著它能做精細的抓取、旋轉和操作,這在人形機器人領域是相當先進的規格。很多研究用的機器人手只有簡單的夾爪,能做的動作很有限。Sharpa 的手讓 Isaac Groot 可以直接進入「靈巧操作」(dexterous manipulation)的研究領域,這是目前機器人學界最活躍的研究前線之一。
我的觀察:NVIDIA 用開源打造 Physical AI 的「CUDA 時刻」
黃仁勳在語言 AI 領域承認競爭激烈,但在 Physical AI 領域他毫不謙虛。「我們絕對是全球最好的。」這句話放在 Cosmos 3、Alpamayo 2 和 Isaac Groot 同時發表的語境下,是一個很明確的宣示:NVIDIA 要在 Physical AI 領域重現當年 CUDA 在 GPU 運算領域的壟斷地位。
策略很清晰。把 Cosmos 3 完全開源,讓全世界的機器人研究者和自駕車公司都用 NVIDIA 的世界模型來生成訓練資料。當這些團隊的整個訓練管線都建立在 Cosmos 上面時,他們需要的 GPU(跑 Omniverse 模擬)、CPU(跑 agent 協調)和網路設備(跑分散式訓練)自然會選 NVIDIA 的產品。Isaac Groot 把這條鏈更往前推了一步:連硬體研究平台都幫你準備好了,裡面跑的當然是 NVIDIA 的 Thor 晶片和 Isaac 軟體棧。
Alpamayo 覆蓋全球 80% 車廠和 97% 移動服務的數字如果屬實,意味著 NVIDIA 在自駕車領域已經接近平台壟斷。不過要注意的是,「簽約採用」和「實際量產部署」之間還有很大的距離。很多車廠同時跟多家平台合作,最終量產搭載的不一定是 NVIDIA 的方案。但即便打個折扣,NVIDIA 在自駕車軟硬體棧的市佔率也是遙遙領先的。
對台灣來說,Physical AI 的崛起意味著另一波硬體需求。機器人需要的 Thor 運算模組、自駕車需要的 Hyperion 平台、Cosmos 模擬需要的 GPU 叢集,這些全部需要台灣供應鏈來製造。如果說雲端 AI 工廠是台灣科技產業的現在式,那 Physical AI 就是下一個十年的成長引擎。黃仁勳在台北的舞台上把這整條路線圖攤開來,對台灣供應鏈來說既是機會的預告,也是一張明確的投資路線圖。