AI 技術前沿

從 Cosmos 3 到人形機器人：NVIDIA 的 Physical AI 佈局，要讓機器學會理解真實世界

NVIDIA 在 GTC Taipei 2026 發表 Cosmos 3 世界基礎模型、Alpamayo 2 自駕車推理模型和 Isaac Groot 人形機器人參考平台。黃仁勳指出 Physical AI 最大的挑戰是資料，Cosmos 3 用合成資料來突破這個瓶頸。

2026 年 6 月 1 日 · 來源： NVIDIA GTC Taipei 2026 Keynote

從 Cosmos 3 到人形機器人：NVIDIA 的 Physical AI 佈局，要讓機器學會理解真實世界

本文整理自 NVIDIA GTC Taipei 2026 主題演講，2026 年 5 月 28 日。

Physical AI 最大的敵人是資料

黃仁勳（Jensen Huang）在整場 GTC Taipei 2026 演講中花了大量時間在資料中心和 PC 上，但他把最後一段留給了 Physical AI。他開場就點出一個根本性的問題：語言模型可以用網路上人類寫的文字來訓練，因為文字資料幾乎是無限的。但機器人和自駕車需要的是「第一人稱視角」的資料，也就是從機器的眼睛看出去的影像、感測器數據和行動軌跡。這種資料在網路上幾乎不存在。YouTube 上的影片絕大多數是第三人稱的旁觀視角，沒有機器人需要的深度資訊、觸覺回饋和行動標註。

這個資料瓶頸解釋了為什麼自駕車和機器人的進展比語言 AI 慢這麼多。語言模型可以靠規模定律（scaling laws）持續進步，只要灌更多資料、用更大的模型、砸更多算力就行。但 Physical AI 連訓練資料的來源都是問題。你不能叫一萬台機器人上街跑個幾年來蒐集資料，這太危險也太昂貴。黃仁勳提出的解法是一條「自助式資料產生梯」：先用遙控操作（teleoperation）讓人類示範給機器看，然後用模擬（Omniverse）生成更多場景，接著用世界模型把第三人稱影片轉換成第一人稱視角，最終建立能從任何角度理解物理世界的基礎模型。

Cosmos 3：同時能看、能想、能生成的世界模型

Cosmos 3 是 NVIDIA 發表的 Physical AI 世界基礎模型，架構上稱為「混合 Transformer」（mixture of transformers），把自回歸 Transformer（負責推理和規劃）和擴散 Transformer（負責生成）結合在一起。它能同時處理影像（pixels）、動作（action）、聲音（sound）和語言（language），是一個真正的多模態模型。

Cosmos 3 有四種運作模式。第一，作為視覺語言模型（VLM），它可以觀看真實世界的影像並描述場景內容，理解物件的空間關係和物理特性。第二，作為世界模型（world model），它可以從一張圖片或一段文字生成符合物理法則的合成影片，為機器人提供訓練資料。第三，作為模擬器（simulator），它可以在閉環（closed-loop）環境中訓練和評估 agent 的策略，機器人在虛擬環境中做出動作，Cosmos 根據物理法則回應結果。第四，透過 OmniDreams 功能，它可以作為「行動條件化世界模型」（action-conditioned world model），根據機器人的動作指令即時生成對應的視覺回饋。

跟 NemoTron 一樣，Cosmos 3 採用完全開源策略：模型權重、訓練資料、訓練腳本全部公開。黃仁勳在這一點上的態度很明確：NVIDIA 認為自己是 Physical AI 基礎模型領域的全球領導者，他用了一句話概括，「In physical AI, we are absolutely the world's best。」他願意開源，是因為越多人用 Cosmos 訓練機器人，就需要越多 NVIDIA 的 GPU 來跑模擬和推論。

Alpamayo 2：會「思考出聲」的自駕車

在自駕車領域，NVIDIA 發表了 Alpamayo 2，這是一個開源的自駕車推理模型，跑在 NVIDIA Hyperion 硬體平台上，搭配 Halos 作業系統。黃仁勳給出的數字很驚人：已經簽約採用 NVIDIA Hyperion 的汽車製造商，產量合計佔全球汽車總產量的約 80%。全球約 97% 的移動服務（ride-hailing、物流等）也在對接 NVIDIA 的平台。

台上播放了一段 Mercedes-Benz（賓士）搭載 Alpamayo 的示範影片。這段影片最特別的地方不是車子的駕駛表現，而是車子在行駛過程中會即時「說出」自己的思考過程。遇到行人過馬路，它會說「前方有行人，讓行」。前車突然停下，它會說「前車停止，向左偏移繞行」。有車輛從旁邊插入車道，它會說「右側車輛切入，減速讓行」。黃仁勳稱這是「thinking out loud」（思考出聲），本質上跟語言模型的 Chain-of-Thought 推理是同一回事：讓模型把推理過程外顯化，既方便除錯，也增加乘客的信任感。

黃仁勳強調，自駕車用的 agentic computing 模式跟雲端 AI 完全一樣：模型加 harness 加工具加 runtime。差異只在部署環境不同。這意味著 NVIDIA 為資料中心開發的 AI 軟體棧，很大一部分可以直接移植到車上。這種跨平台的統一架構直接壓低了開發成本，也是為什麼這麼多車廠願意押注 NVIDIA 平台的原因之一。

Isaac Groot：給大學研究者的人形機器人

演講最後，黃仁勳搬出了一個實體驚喜：Isaac Groot 人形機器人。這台機器人由 Sharpa 公司製造，身高 6 英尺（約 183 公分）、體重 150 磅（約 68 公斤），全身有 31 個自由度，每隻手有 25 個自由度。黃仁勳開了個玩笑，說這台機器人的規格跟他本人很像，只是第一個數字（身高）矮了一點，第二個數字（體重）大了一點。

Isaac Groot 不是消費性產品，它的目標使用者是大學和研究機構。黃仁勳指出，目前機器人研究最大的痛點是前期準備工作太耗時。一個研究團隊光是組裝硬體、串接感測器、設定模擬環境、建立資料管線，往往就要花好幾個月，真正的研究還沒開始就被基礎設施拖垮了。Isaac Groot 的定位是一台「開箱即用」的研究平台：硬體預先整合好，搭配完整的 Isaac 軟體棧（Isaac Lab 模擬、Groot 模型、資料產生器、訓練基礎設施），還有 Thor 運算晶片。黃仁勳說研究者收到機器人後，幾小時內就能開始做實驗，不用花幾個月在搞基礎設施。

這台機器人的手特別值得一提。每隻手 25 個自由度意味著它能做精細的抓取、旋轉和操作，這在人形機器人領域是相當先進的規格。很多研究用的機器人手只有簡單的夾爪，能做的動作很有限。Sharpa 的手讓 Isaac Groot 可以直接進入「靈巧操作」（dexterous manipulation）的研究領域，這是目前機器人學界最活躍的研究前線之一。

我的觀察：NVIDIA 用開源打造 Physical AI 的「CUDA 時刻」

黃仁勳在語言 AI 領域承認競爭激烈，但在 Physical AI 領域他毫不謙虛。「我們絕對是全球最好的。」這句話放在 Cosmos 3、Alpamayo 2 和 Isaac Groot 同時發表的語境下，是一個很明確的宣示：NVIDIA 要在 Physical AI 領域重現當年 CUDA 在 GPU 運算領域的壟斷地位。

策略很清晰。把 Cosmos 3 完全開源，讓全世界的機器人研究者和自駕車公司都用 NVIDIA 的世界模型來生成訓練資料。當這些團隊的整個訓練管線都建立在 Cosmos 上面時，他們需要的 GPU（跑 Omniverse 模擬）、CPU（跑 agent 協調）和網路設備（跑分散式訓練）自然會選 NVIDIA 的產品。Isaac Groot 把這條鏈更往前推了一步：連硬體研究平台都幫你準備好了，裡面跑的當然是 NVIDIA 的 Thor 晶片和 Isaac 軟體棧。

Alpamayo 覆蓋全球 80% 車廠和 97% 移動服務的數字如果屬實，意味著 NVIDIA 在自駕車領域已經接近平台壟斷。不過要注意的是，「簽約採用」和「實際量產部署」之間還有很大的距離。很多車廠同時跟多家平台合作，最終量產搭載的不一定是 NVIDIA 的方案。但即便打個折扣，NVIDIA 在自駕車軟硬體棧的市佔率也是遙遙領先的。

對台灣來說，Physical AI 的崛起意味著另一波硬體需求。機器人需要的 Thor 運算模組、自駕車需要的 Hyperion 平台、Cosmos 模擬需要的 GPU 叢集，這些全部需要台灣供應鏈來製造。如果說雲端 AI 工廠是台灣科技產業的現在式，那 Physical AI 就是下一個十年的成長引擎。黃仁勳在台北的舞台上把這整條路線圖攤開來，對台灣供應鏈來說既是機會的預告，也是一張明確的投資路線圖。