NVIDIA 發表 Vera CPU 和 NemoTron 3 Ultra:為數十億個不耐煩的 AI Agent 打造全新運算架構
NVIDIA 在 GTC Taipei 2026 發表專為 AI agent 設計的 Vera CPU,88 顆 Olympus 核心、1.2 TB/s 記憶體頻寬,agent 工作負載效能是 x86 的 1.8 倍。同步推出 NemoTron 3 Ultra 開源模型和企業 AI 工具箱,Cadence 晶片驗證速度加快 40 倍。

本文整理自 NVIDIA GTC Taipei 2026 主題演講,2026 年 5 月 28 日。
{{< youtube wSp6AiNIrsY >}}
過去所有的 CPU 都是為人類設計的
黃仁勳(Jensen Huang)在 GTC Taipei 2026 上提出了一個看似簡單卻根本性的觀察:過去所有的 CPU 都是為人類設計的,而人類活在以「秒」為單位的世界裡。你打開一個網頁,等個一兩秒覺得還行。你跑一段程式,花個幾秒也不焦慮。但 AI agent 不一樣,agent 活在奈秒等級的世界裡,它們極度不耐煩。當一個 agent 需要呼叫 CPU 來處理協調、調度或記憶體存取時,如果 CPU 回應太慢,那旁邊價格昂貴的 GPU 就在空轉等待。GPU 空轉就是在燒錢。
這個觀察直接催生了 NVIDIA 的全新產品線:Vera CPU。黃仁勳明確說這不是現有 CPU 的改良版,而是從零開始打造的全新架構,專門為 agent 工作負載而生。他宣稱 NVIDIA 已經是全球最大的 CPU 製造商之一,光是 Grace Blackwell 系列就已經出貨數百萬顆。但 Grace 是為了搭配 GPU 跑推論而設計的通用 CPU,Vera 則完全不同,它瞄準的是一個全新市場:agent 專用 CPU。黃仁勳預測這個市場的規模最終會超過傳統人類用 CPU 市場,因為 agent 的數量將遠遠超過人類。
Olympus 核心:每個時脈週期十條指令
Vera CPU 的核心是 NVIDIA 自行設計的 Olympus 運算核心。每顆 Vera CPU 包含 88 顆 Olympus 核心,每個核心每個時脈週期可以擷取、解碼和執行 10 條指令,這是非常寬的指令管線,代表單執行緒的 IPC(每時脈指令數)極高。黃仁勳強調,agent 工作負載的關鍵不是核心數量(傳統 x86 拼命加核心再按小時出租的模式),而是單核心效能、每核心頻寬、總頻寬和能源效率。
記憶體方面,Vera CPU 採用 LPDDR5X,頻寬達到 1.2 TB/s,是目前最快 x86 CPU 的兩到三倍。尖峰記憶體延遲比 x86 低 40%。88 顆核心透過第二代可擴展一致性匯流排(Scalable Coherency Fabric)連接,內部匯流排頻寬 3.6 TB/s,而且是單一晶粒設計(monolithic mesh),沒有小晶片(chiplet)的邊界跨越延遲問題。核心間通訊速度比傳統 CPU 快 50%。外部連接方面,Vera CPU 是第一款支援 PCIe Gen 6 的 CPU,並且內建 NVLink 晶片對晶片互連,讓 CPU 和 GPU 之間的資料交換不需要經過 PCIe 瓶頸。
黃仁勳在台上展示了實際的效能數據。在 SQL 工作負載上,Vera CPU 比最高效能的 x86 CPU 快 3 倍。在紐約證券交易所(NYSE)的即時串流處理測試中,速度是 x86 的 6 倍,他特別提到 NYSE 總裁 Lynn Martin 的背書。在綜合 agent 沙盒效能測試中,Vera CPU 的表現是 x86 的 1.8 倍。這些不是理論數據,而是在實際工作負載上的測量結果。
NemoTron 3 Ultra:SSM 加 MoE 混合架構的開源前沿模型
在 Vera CPU 旁邊,黃仁勳發表了 NemoTron 3 Ultra,這是 NVIDIA 的最新開源前沿模型。它的架構很特別:全球第一款採用 SSM(State Space Model,狀態空間模型)加 MoE(Mixture of Experts,混合專家)混合架構的模型。SSM 負責高效的序列處理,MoE 負責在不增加運算成本的情況下擴大模型容量。兩者結合的結果是推論速度比同級開源模型快 5 倍,總體運行成本降低 30%。
但真正有意思的是 NVIDIA 的開源策略。NemoTron 3 Ultra 不只釋出模型權重,還公開了所有的訓練資料和訓練腳本。這意味著企業可以完整地微調、修改、甚至重新訓練這個模型來製作自己的專屬版本。黃仁勳說 NVIDIA 已經在開發 NemoTron 4,而且這個模型可以在雲端跑,也可以在本地的 RTX Spark 硬體上跑。這種「完全開源、鼓勵衍生」的策略跟 Meta 的 Llama 系列如出一轍:免費送出模型,讓整個生態系綁定在自家硬體上。
企業 AI 工具箱:四層架構讓每家公司都能造 Agent
黃仁勳為企業描繪了一套完整的 agent 建造工具箱,分成四個層次。第一層是模型:NemoTron 開源模型,或者任何第三方前沿模型都行。第二層是 harness(協調框架):NVIDIA 推出的 OpenShell 是開源的 agent 執行環境,負責安全沙盒、身份驗證、權限管理和隱私保護。Red Hat、Canonical 和微軟都已經採用 OpenShell。第三層是工具和技能:NVIDIA 的 CUDA-X 函式庫超過一千個,涵蓋基因組學(Parabricks)、計算光刻(CuLitho)、決策最佳化(CuOpt)、深度研究(AIQ)、AI 無線通訊(Arial)、可微分物理模擬(Warp)等領域。這些函式庫現在被重新定位為「agent 可以使用的工具」。第四層是執行環境:OpenShell 在雲端、本地或裝置上都能運行。
為了展示這套工具箱的威力,黃仁勳拿出了一個令人印象深刻的案例:NVIDIA 和益華電腦(Cadence)合作打造的晶片設計超級 agent。這個系統用 OpenAI 的 Codex 作為協調器,讓多個子 agent 分別負責 RTL 程式碼生成、測試台建立、回歸測試和除錯,底層跑的是 Cadence 的 Exilium 模擬器和 Jasper 形式驗證工具,再搭配 NemoTron 模型。結果是晶片驗證週期從原本的「以週計」壓縮到「以小時計」,加速超過 40 倍。黃仁勳說 NVIDIA 自己會部署數十萬個這種 Cadence 超級 agent,和自家的晶片設計師並肩工作。CrowdStrike、Palantir、SAP、ServiceNow 等企業客戶也都在用這套工具箱建造自己的 agent。
我的觀察:開源模型加開源 Runtime,綁定硬體的高明策略
NVIDIA 在這場演講中做的事情,和 Meta 的 Llama 策略有異曲同工之處,但更加徹底。Meta 開源語言模型,讓大家用 Meta 的模型跑在各種硬體上,壓制 OpenAI 的封閉模型定價權。NVIDIA 則是同時開源模型(NemoTron)和執行環境(OpenShell),讓整個企業 agent 生態系建立在 NVIDIA 的軟體棧上,而這個軟體棧跑得最好的硬體,當然是 NVIDIA 自家的 GPU 和 Vera CPU。
Vera CPU「為 agent 而非人類設計」這個定位非常精準。它不是在跟 Intel 和 AMD 搶傳統的資料中心 CPU 市場,而是宣稱自己定義了一個全新的品類。當全球的 AI agent 數量從百萬級成長到十億甚至百億級時,這些 agent 需要的 CPU 跟人類使用者需要的 CPU 根本是不同的東西。黃仁勳用紐約證券交易所的 6 倍加速數據來證明這一點:在即時串流處理這種 agent 典型工作負載上,Vera 的優勢不是微幅領先,而是數量級的差異。
NemoTron 3 Ultra 的 SSM 加 MoE 混合架構也值得關注。SSM 在長序列處理上的效率優勢已經被研究社群廣泛認可,但過去的 SSM 模型在推理能力上不如 Transformer。NVIDIA 把 SSM 和 MoE 結合起來,等於是在保留 SSM 效率優勢的同時,用 MoE 來補足模型容量。如果這個架構真的能做到宣稱的「快 5 倍、便宜 30%」,它對開源模型的競爭格局會產生實質衝擊,直接挑戰 Meta Llama 和 DeepSeek 的地位。