AI 技術前沿

NVIDIA 發表 Vera CPU 和 NemoTron 3 Ultra：為數十億個不耐煩的 AI Agent 打造全新運算架構

NVIDIA 在 GTC Taipei 2026 發表專為 AI agent 設計的 Vera CPU，88 顆 Olympus 核心、1.2 TB/s 記憶體頻寬，agent 工作負載效能是 x86 的 1.8 倍。同步推出 NemoTron 3 Ultra 開源模型和企業 AI 工具箱，Cadence 晶片驗證速度加快 40 倍。

2026 年 6 月 1 日 · 來源： NVIDIA GTC Taipei 2026 Keynote

NVIDIA 發表 Vera CPU 和 NemoTron 3 Ultra：為數十億個不耐煩的 AI Agent 打造全新運算架構

本文整理自 NVIDIA GTC Taipei 2026 主題演講，2026 年 5 月 28 日。

過去所有的 CPU 都是為人類設計的

黃仁勳（Jensen Huang）在 GTC Taipei 2026 上提出了一個看似簡單卻根本性的觀察：過去所有的 CPU 都是為人類設計的，而人類活在以「秒」為單位的世界裡。你打開一個網頁，等個一兩秒覺得還行。你跑一段程式，花個幾秒也不焦慮。但 AI agent 不一樣，agent 活在奈秒等級的世界裡，它們極度不耐煩。當一個 agent 需要呼叫 CPU 來處理協調、調度或記憶體存取時，如果 CPU 回應太慢，那旁邊價格昂貴的 GPU 就在空轉等待。GPU 空轉就是在燒錢。

這個觀察直接催生了 NVIDIA 的全新產品線：Vera CPU。黃仁勳明確說這不是現有 CPU 的改良版，而是從零開始打造的全新架構，專門為 agent 工作負載而生。他宣稱 NVIDIA 已經是全球最大的 CPU 製造商之一，光是 Grace Blackwell 系列就已經出貨數百萬顆。但 Grace 是為了搭配 GPU 跑推論而設計的通用 CPU，Vera 則完全不同，它瞄準的是一個全新市場：agent 專用 CPU。黃仁勳預測這個市場的規模最終會超過傳統人類用 CPU 市場，因為 agent 的數量將遠遠超過人類。

Olympus 核心：每個時脈週期十條指令

Vera CPU 的核心是 NVIDIA 自行設計的 Olympus 運算核心。每顆 Vera CPU 包含 88 顆 Olympus 核心，每個核心每個時脈週期可以擷取、解碼和執行 10 條指令，這是非常寬的指令管線，代表單執行緒的 IPC（每時脈指令數）極高。黃仁勳強調，agent 工作負載的關鍵不是核心數量（傳統 x86 拼命加核心再按小時出租的模式），而是單核心效能、每核心頻寬、總頻寬和能源效率。

記憶體方面，Vera CPU 採用 LPDDR5X，頻寬達到 1.2 TB/s，是目前最快 x86 CPU 的兩到三倍。尖峰記憶體延遲比 x86 低 40%。88 顆核心透過第二代可擴展一致性匯流排（Scalable Coherency Fabric）連接，內部匯流排頻寬 3.6 TB/s，而且是單一晶粒設計（monolithic mesh），沒有小晶片（chiplet）的邊界跨越延遲問題。核心間通訊速度比傳統 CPU 快 50%。外部連接方面，Vera CPU 是第一款支援 PCIe Gen 6 的 CPU，並且內建 NVLink 晶片對晶片互連，讓 CPU 和 GPU 之間的資料交換不需要經過 PCIe 瓶頸。

黃仁勳在台上展示了實際的效能數據。在 SQL 工作負載上，Vera CPU 比最高效能的 x86 CPU 快 3 倍。在紐約證券交易所（NYSE）的即時串流處理測試中，速度是 x86 的 6 倍，他特別提到 NYSE 總裁 Lynn Martin 的背書。在綜合 agent 沙盒效能測試中，Vera CPU 的表現是 x86 的 1.8 倍。這些不是理論數據，而是在實際工作負載上的測量結果。

NemoTron 3 Ultra：SSM 加 MoE 混合架構的開源前沿模型

在 Vera CPU 旁邊，黃仁勳發表了 NemoTron 3 Ultra，這是 NVIDIA 的最新開源前沿模型。它的架構很特別：全球第一款採用 SSM（State Space Model，狀態空間模型）加 MoE（Mixture of Experts，混合專家）混合架構的模型。SSM 負責高效的序列處理，MoE 負責在不增加運算成本的情況下擴大模型容量。兩者結合的結果是推論速度比同級開源模型快 5 倍，總體運行成本降低 30%。

但真正有意思的是 NVIDIA 的開源策略。NemoTron 3 Ultra 不只釋出模型權重，還公開了所有的訓練資料和訓練腳本。這意味著企業可以完整地微調、修改、甚至重新訓練這個模型來製作自己的專屬版本。黃仁勳說 NVIDIA 已經在開發 NemoTron 4，而且這個模型可以在雲端跑，也可以在本地的 RTX Spark 硬體上跑。這種「完全開源、鼓勵衍生」的策略跟 Meta 的 Llama 系列如出一轍：免費送出模型，讓整個生態系綁定在自家硬體上。

企業 AI 工具箱：四層架構讓每家公司都能造 Agent

黃仁勳為企業描繪了一套完整的 agent 建造工具箱，分成四個層次。第一層是模型：NemoTron 開源模型，或者任何第三方前沿模型都行。第二層是 harness（協調框架）：NVIDIA 推出的 OpenShell 是開源的 agent 執行環境，負責安全沙盒、身份驗證、權限管理和隱私保護。Red Hat、Canonical 和微軟都已經採用 OpenShell。第三層是工具和技能：NVIDIA 的 CUDA-X 函式庫超過一千個，涵蓋基因組學（Parabricks）、計算光刻（CuLitho）、決策最佳化（CuOpt）、深度研究（AIQ）、AI 無線通訊（Arial）、可微分物理模擬（Warp）等領域。這些函式庫現在被重新定位為「agent 可以使用的工具」。第四層是執行環境：OpenShell 在雲端、本地或裝置上都能運行。

為了展示這套工具箱的威力，黃仁勳拿出了一個令人印象深刻的案例：NVIDIA 和益華電腦（Cadence）合作打造的晶片設計超級 agent。這個系統用 OpenAI 的 Codex 作為協調器，讓多個子 agent 分別負責 RTL 程式碼生成、測試台建立、回歸測試和除錯，底層跑的是 Cadence 的 Exilium 模擬器和 Jasper 形式驗證工具，再搭配 NemoTron 模型。結果是晶片驗證週期從原本的「以週計」壓縮到「以小時計」，加速超過 40 倍。黃仁勳說 NVIDIA 自己會部署數十萬個這種 Cadence 超級 agent，和自家的晶片設計師並肩工作。CrowdStrike、Palantir、SAP、ServiceNow 等企業客戶也都在用這套工具箱建造自己的 agent。

我的觀察：開源模型加開源 Runtime，綁定硬體的高明策略

NVIDIA 在這場演講中做的事情，和 Meta 的 Llama 策略有異曲同工之處，但更加徹底。Meta 開源語言模型，讓大家用 Meta 的模型跑在各種硬體上，壓制 OpenAI 的封閉模型定價權。NVIDIA 則是同時開源模型（NemoTron）和執行環境（OpenShell），讓整個企業 agent 生態系建立在 NVIDIA 的軟體棧上，而這個軟體棧跑得最好的硬體，當然是 NVIDIA 自家的 GPU 和 Vera CPU。

Vera CPU「為 agent 而非人類設計」這個定位非常精準。它不是在跟 Intel 和 AMD 搶傳統的資料中心 CPU 市場，而是宣稱自己定義了一個全新的品類。當全球的 AI agent 數量從百萬級成長到十億甚至百億級時，這些 agent 需要的 CPU 跟人類使用者需要的 CPU 根本是不同的東西。黃仁勳用紐約證券交易所的 6 倍加速數據來證明這一點：在即時串流處理這種 agent 典型工作負載上，Vera 的優勢不是微幅領先，而是數量級的差異。

NemoTron 3 Ultra 的 SSM 加 MoE 混合架構也值得關注。SSM 在長序列處理上的效率優勢已經被研究社群廣泛認可，但過去的 SSM 模型在推理能力上不如 Transformer。NVIDIA 把 SSM 和 MoE 結合起來，等於是在保留 SSM 效率優勢的同時，用 MoE 來補足模型容量。如果這個架構真的能做到宣稱的「快 5 倍、便宜 30%」，它對開源模型的競爭格局會產生實質衝擊，直接挑戰 Meta Llama 和 DeepSeek 的地位。