科技巨頭觀察

Vera Rubin 是什麼？輝達 7 晶片平台全解析：規格、Groq 整合到 Feynman 路線圖

Vera Rubin 是輝達 GTC 2026 發表的新一代 AI 平台，整合 7 顆晶片、AI 算力 10 年成長 4,000 萬倍。完整規格、Groq 整合與 Feynman 路線圖一次看。

2026 年 3 月 23 日 · 來源： NVIDIA GTC 2026 Keynote

Vera Rubin 是什麼？輝達 7 晶片平台全解析：規格、Groq 整合到 Feynman 路線圖

本文整理自 NVIDIA GTC 2026 主題演講，2026 年 3 月 16 日發表。

10 年 4,000 萬倍：這個數字到底意味著什麼

黃仁勳（Jensen Huang）在 GTC 2026 的舞台上，把一張投影片停了很久。那張投影片只有一個數字：40,000,000x。從 2016 年第一台 DGX-1 到今天的 Vera Rubin NVLink 72，AI 算力在 10 年之間成長了 4,000 萬倍。

這不是理論性能，而是實際可以購買、部署、運作的系統。2016 年的 DGX-1 是一台桌面大小的機器，用 8 張 Pascal GPU，總算力大約是 170 teraflops。2026 年的 Vera Rubin NVLink 72 是一整排機架，72 顆 GPU 搭配 36 顆 CPU，在 NVLink 6 的高速互連下運作為一台巨大的單一電腦，推論算力達到 3.6 exaflops。用更直觀的方式說：如果 2016 年的 DGX-1 是一輛腳踏車，今天的 Vera Rubin 就是一架太空梭。

這個成長速度遠遠超過摩爾定律。傳統晶片效能大約每兩年翻一倍，但輝達透過架構創新、封裝技術、互連頻寬、軟體最佳化的疊加效應，把這個速度加快了好幾個數量級。黃仁勳特別強調，光換一顆更快的晶片做不到，必須把整個計算堆疊從晶片、系統、網路到軟體全部重新設計。所以他形容輝達是「全世界第一家垂直整合但水平開放的計算公司」。

Vera Rubin：不只是一顆 GPU

過去幾代輝達的產品發表，焦點都在 GPU 本身。Hopper 的 H100、Blackwell 的 B200，大家討論的是一顆晶片有多少電晶體、多少記憶體頻寬。但 Vera Rubin 的發表改變了敘事方式，黃仁勳這次花更多時間在講「系統」而非「晶片」。

Vera Rubin 平台由 7 顆不同晶片組成，構成 5 種機架級電腦，最終整合為一台 AI 超級電腦。GPU 本身採用台積電 3 奈米製程，每顆晶片有 3,360 億個電晶體（雙光罩晶粒設計），搭配 HBM4 記憶體，每顆 GPU 配備 288 GB。但 GPU 只是其中一塊拼圖。

第一種機架是 Vera Rubin NVLink 72，把 72 顆 GPU 和 36 顆 CPU 放在同一個 NVLink 域裡。NVLink 6 提供每顆 GPU 3.6 TB/s 的互連頻寬，讓它們像一台機器一樣協同運算。第二種是 Vera CPU 機架，專門處理調度和協作。第三種是 STX 機架，裝載 BlueField 4 智慧網卡和 CX9 SuperNIC，負責儲存。黃仁勳說全球 100% 的儲存產業都在加入這個生態系。

這裡有一個有趣的細節：Vera Rubin 的 CPU 是全世界唯一在資料中心使用 LPDDR5 記憶體的處理器。LPDDR5 原本是筆電和手機用的低功耗記憶體，輝達把它搬進資料中心是為了追求極致的單執行緒效能和能源效率。黃仁勳提到，光是 CPU 業務本身已經是一門數十億美元的生意。

整套系統 100% 液冷，使用攝氏 45 度的熱水冷卻。過去 Blackwell 時代安裝一套系統需要兩天，Vera Rubin 縮短到兩小時。黃仁勳強調，供應鏈已經能以每週數千套系統的速度量產，每月可以交付數個 gigawatt 等級的 AI 工廠。

收購 Groq 的第一個產品：拆解式推論

GTC 2026 最令人意外的一個段落，是黃仁勳首次展示收購 Groq 之後的具體產品。輝達在 2025 年聖誕夜完成了這筆約 200 億美元的收購案，拿到 Groq 的團隊和 LPU（Language Processing Unit）技術的非獨佔授權。

Groq LPU 和 GPU 在本質上是完全不同的計算裝置。GPU 是通用型平行處理器，依靠巨大的 HBM 記憶體來存放模型權重。Groq LPU 則是確定性資料流處理器，靜態編譯、編譯器排程，每顆晶片內建 500 MB 的大容量 SRAM，不需要 HBM。這讓 LPU 在特定工作負載上有極高的能源效率。

但 LPU 不能取代 GPU，兩者擅長的工作不同。黃仁勳用了一個叫做 Dynamo 的開源推論軟體來解釋他的策略：把推論拆解成兩個階段。第一階段是 Prefill 和 Attention（預填充和注意力計算），這部分計算密集、需要大量記憶體，適合 GPU 處理。第二階段是 Token 生成（前饋網路解碼），這部分更適合 LPU 的確定性資料流架構。

Groq 3 LPU（晶片代號 LP30）由三星量產，預計 2026 年第三季開始出貨。一個 Groq 3 LPX 機架可以裝 256 顆 LPU，設計上會擺在 Vera Rubin 機架旁邊。黃仁勳給出的建議配比是 75% Vera Rubin、25% Groq，主要用於程式碼生成等高價值推論工作負載。在最高價值的推論層級上，加入 Groq 可以帶來 35 倍的效能提升。

這個「拆解式推論」的概念其實很聰明。當推論速度超過每秒 1,000 個 token 時，純 GPU 架構（即使是 NVLink 72 這種等級）也會碰到瓶頸。Groq LPU 的加入等於是在瓶頸處開了一條新車道，讓系統可以繼續往上擴展。

Kyber 垂直機架：把 144 顆 GPU 塞進一個 NVLink 域

如果 Vera Rubin NVLink 72 是現在的旗艦，那 Rubin Ultra 就是下一步。黃仁勳展示了一個叫 Kyber 的全新機架設計，計算節點從過去的水平排列改成垂直插入，前面是計算板，後面是 NVLink 交換器，中間用中板連接。

Kyber 機架的設計目標是 NVLink 144：144 顆 GPU 在同一個 NVLink 域裡運作。這代表每一顆 GPU 可以直接存取其他 143 顆 GPU 的記憶體，不需要經過外部網路。以 Rubin Ultra 的規格來算，144 顆 GPU × 288 GB = 超過 41 TB 的共享記憶體空間。這對訓練超大型模型來說是決定性的優勢，因為模型不需要被切割到不同的網路域。

黃仁勳說 Rubin Ultra 正在 tape out（流片），預計 2027 年出貨。新晶片代號 LP35，支援 NVFP4 運算格式，這是輝達新一代的 4 位元浮點精度，在推論場景中可以用更少的記憶體頻寬達到接近的精度。

Feynman：2028 年的三維堆疊

路線圖的最遠端是 Feynman 架構，預計 2028 年推出。黃仁勳只透露了幾個關鍵字，但每一個都很重要。

首先是三維晶粒堆疊。Feynman 將是輝達第一個把邏輯晶粒垂直堆疊的架構。過去的 GPU 都是平面設計（即使有 chiplet，也是 2.5D 封裝），Feynman 要把運算晶粒疊在一起，這對散熱是巨大的挑戰，但可以大幅提升每單位面積的算力。

其次是光學互連。Feynman 世代的 Kyber 機架將同時使用銅纜和共封裝光學（co-packaged optics, CPO）進行 scale-up。輝達和台積電合作開發了一種叫 COOP 的封裝製程，已經在 Spectrum X 交換器上量產。到 Feynman 時代，光學 NVLink 將從 scale-out（機架間）擴展到 scale-up（機架內），這是資料中心互連的重大里程碑。

第三是新的 CPU 和 LPU。CPU 代號 Rosa（以物理學家 Rosalyn Sussman Yalow 命名），LPU 升級到 LP40，由輝達和 Groq 團隊聯合設計。黃仁勳還提到，CPU 的開發週期已經從四年縮短到兩年，顯示輝達在自研 Arm 處理器上的投入正在加速。

我的觀察：台積電是這場軍備競賽的隱形主角

看完黃仁勳的硬體路線圖，最明顯的感受是：輝達「每年一個全新架構」的承諾，背後站著的是台積電。Vera Rubin 用台積電 3 奈米製程。COOP 共封裝光學也是和台積電合作開發。Feynman 的三維堆疊更需要台積電的先進封裝技術（CoWoS 和 SoIC）。

但有趣的是，Groq LP30 晶片是由三星量產的。這是輝達在供應鏈上的分散策略，也反映了 LPU 和 GPU 在製造需求上的差異。LPU 不需要最先進的製程節點（因為它的優勢來自架構而非電晶體密度），所以可以交給三星。GPU 則必須搶台積電最先進的產能。

對臺灣半導體產業來說，輝達每年推一個新架構意味著台積電的先進製程產能永遠不夠用。光是 Vera Rubin 一代，黃仁勳說供應鏈每月可以交付數個 gigawatt 等級的 AI 工廠。每個 gigawatt 工廠需要上千個 NVLink 72 機架，每個機架有 72 顆 GPU，每顆 GPU 是台積電 3 奈米最大面積的晶片之一。這種規模的需求，加上一年後又有 Rubin Ultra 和 Feynman 接棒，對台積電的產能規劃和資本支出形成了持續性的拉動力量。

另一個重要變數是光學互連。COOP 技術讓光學元件可以直接封裝在交換器晶片上，不需要外接光收發模組。這條技術路線如果成功擴展到 GPU 層級，可能會改變光通訊產業的供應鏈結構。臺灣有不少光通訊公司正在關注這個趨勢，但 COOP 的核心技術掌握在台積電和輝達手上，其他廠商的角色可能會被重新定義。

黃仁勳用了將近三小時講完這場演講，但硬體路線圖的部分只佔了大約四十分鐘。他花更多時間在講軟體、推論經濟學、AI Agent 和機器人。這本身就傳達了一個訊息：在輝達的世界觀裡，晶片只是基礎設施，真正的價值創造發生在上面跑的軟體和服務。但如果沒有這些瘋狂進化的晶片，那些軟體和服務也無從談起。