Vera Rubin 是什麼?輝達 7 晶片平台全解析:規格、Groq 整合到 Feynman 路線圖
Vera Rubin 是輝達 GTC 2026 發表的新一代 AI 平台,整合 7 顆晶片、AI 算力 10 年成長 4,000 萬倍。完整規格、Groq 整合與 Feynman 路線圖一次看。

本文整理自 NVIDIA GTC 2026 主題演講,2026 年 3 月 16 日發表。
{{< youtube jw_o0xr8MWU >}}
10 年 4,000 萬倍:這個數字到底意味著什麼
黃仁勳(Jensen Huang)在 GTC 2026 的舞台上,把一張投影片停了很久。那張投影片只有一個數字:40,000,000x。從 2016 年第一台 DGX-1 到今天的 Vera Rubin NVLink 72,AI 算力在 10 年之間成長了 4,000 萬倍。
這不是理論性能,而是實際可以購買、部署、運作的系統。2016 年的 DGX-1 是一台桌面大小的機器,用 8 張 Pascal GPU,總算力大約是 170 teraflops。2026 年的 Vera Rubin NVLink 72 是一整排機架,72 顆 GPU 搭配 36 顆 CPU,在 NVLink 6 的高速互連下運作為一台巨大的單一電腦,推論算力達到 3.6 exaflops。用更直觀的方式說:如果 2016 年的 DGX-1 是一輛腳踏車,今天的 Vera Rubin 就是一架太空梭。
這個成長速度遠遠超過摩爾定律。傳統晶片效能大約每兩年翻一倍,但輝達透過架構創新、封裝技術、互連頻寬、軟體最佳化的疊加效應,把這個速度加快了好幾個數量級。黃仁勳特別強調,光換一顆更快的晶片做不到,必須把整個計算堆疊從晶片、系統、網路到軟體全部重新設計。所以他形容輝達是「全世界第一家垂直整合但水平開放的計算公司」。
Vera Rubin:不只是一顆 GPU
過去幾代輝達的產品發表,焦點都在 GPU 本身。Hopper 的 H100、Blackwell 的 B200,大家討論的是一顆晶片有多少電晶體、多少記憶體頻寬。但 Vera Rubin 的發表改變了敘事方式,黃仁勳這次花更多時間在講「系統」而非「晶片」。
Vera Rubin 平台由 7 顆不同晶片組成,構成 5 種機架級電腦,最終整合為一台 AI 超級電腦。GPU 本身採用台積電 3 奈米製程,每顆晶片有 3,360 億個電晶體(雙光罩晶粒設計),搭配 HBM4 記憶體,每顆 GPU 配備 288 GB。但 GPU 只是其中一塊拼圖。
第一種機架是 Vera Rubin NVLink 72,把 72 顆 GPU 和 36 顆 CPU 放在同一個 NVLink 域裡。NVLink 6 提供每顆 GPU 3.6 TB/s 的互連頻寬,讓它們像一台機器一樣協同運算。第二種是 Vera CPU 機架,專門處理調度和協作。第三種是 STX 機架,裝載 BlueField 4 智慧網卡和 CX9 SuperNIC,負責儲存。黃仁勳說全球 100% 的儲存產業都在加入這個生態系。
這裡有一個有趣的細節:Vera Rubin 的 CPU 是全世界唯一在資料中心使用 LPDDR5 記憶體的處理器。LPDDR5 原本是筆電和手機用的低功耗記憶體,輝達把它搬進資料中心是為了追求極致的單執行緒效能和能源效率。黃仁勳提到,光是 CPU 業務本身已經是一門數十億美元的生意。
整套系統 100% 液冷,使用攝氏 45 度的熱水冷卻。過去 Blackwell 時代安裝一套系統需要兩天,Vera Rubin 縮短到兩小時。黃仁勳強調,供應鏈已經能以每週數千套系統的速度量產,每月可以交付數個 gigawatt 等級的 AI 工廠。
收購 Groq 的第一個產品:拆解式推論
GTC 2026 最令人意外的一個段落,是黃仁勳首次展示收購 Groq 之後的具體產品。輝達在 2025 年聖誕夜完成了這筆約 200 億美元的收購案,拿到 Groq 的團隊和 LPU(Language Processing Unit)技術的非獨佔授權。
Groq LPU 和 GPU 在本質上是完全不同的計算裝置。GPU 是通用型平行處理器,依靠巨大的 HBM 記憶體來存放模型權重。Groq LPU 則是確定性資料流處理器,靜態編譯、編譯器排程,每顆晶片內建 500 MB 的大容量 SRAM,不需要 HBM。這讓 LPU 在特定工作負載上有極高的能源效率。
但 LPU 不能取代 GPU,兩者擅長的工作不同。黃仁勳用了一個叫做 Dynamo 的開源推論軟體來解釋他的策略:把推論拆解成兩個階段。第一階段是 Prefill 和 Attention(預填充和注意力計算),這部分計算密集、需要大量記憶體,適合 GPU 處理。第二階段是 Token 生成(前饋網路解碼),這部分更適合 LPU 的確定性資料流架構。
Groq 3 LPU(晶片代號 LP30)由三星量產,預計 2026 年第三季開始出貨。一個 Groq 3 LPX 機架可以裝 256 顆 LPU,設計上會擺在 Vera Rubin 機架旁邊。黃仁勳給出的建議配比是 75% Vera Rubin、25% Groq,主要用於程式碼生成等高價值推論工作負載。在最高價值的推論層級上,加入 Groq 可以帶來 35 倍的效能提升。
這個「拆解式推論」的概念其實很聰明。當推論速度超過每秒 1,000 個 token 時,純 GPU 架構(即使是 NVLink 72 這種等級)也會碰到瓶頸。Groq LPU 的加入等於是在瓶頸處開了一條新車道,讓系統可以繼續往上擴展。
Kyber 垂直機架:把 144 顆 GPU 塞進一個 NVLink 域
如果 Vera Rubin NVLink 72 是現在的旗艦,那 Rubin Ultra 就是下一步。黃仁勳展示了一個叫 Kyber 的全新機架設計,計算節點從過去的水平排列改成垂直插入,前面是計算板,後面是 NVLink 交換器,中間用中板連接。
Kyber 機架的設計目標是 NVLink 144:144 顆 GPU 在同一個 NVLink 域裡運作。這代表每一顆 GPU 可以直接存取其他 143 顆 GPU 的記憶體,不需要經過外部網路。以 Rubin Ultra 的規格來算,144 顆 GPU × 288 GB = 超過 41 TB 的共享記憶體空間。這對訓練超大型模型來說是決定性的優勢,因為模型不需要被切割到不同的網路域。
黃仁勳說 Rubin Ultra 正在 tape out(流片),預計 2027 年出貨。新晶片代號 LP35,支援 NVFP4 運算格式,這是輝達新一代的 4 位元浮點精度,在推論場景中可以用更少的記憶體頻寬達到接近的精度。
Feynman:2028 年的三維堆疊
路線圖的最遠端是 Feynman 架構,預計 2028 年推出。黃仁勳只透露了幾個關鍵字,但每一個都很重要。
首先是三維晶粒堆疊。Feynman 將是輝達第一個把邏輯晶粒垂直堆疊的架構。過去的 GPU 都是平面設計(即使有 chiplet,也是 2.5D 封裝),Feynman 要把運算晶粒疊在一起,這對散熱是巨大的挑戰,但可以大幅提升每單位面積的算力。
其次是光學互連。Feynman 世代的 Kyber 機架將同時使用銅纜和共封裝光學(co-packaged optics, CPO)進行 scale-up。輝達和台積電合作開發了一種叫 COOP 的封裝製程,已經在 Spectrum X 交換器上量產。到 Feynman 時代,光學 NVLink 將從 scale-out(機架間)擴展到 scale-up(機架內),這是資料中心互連的重大里程碑。
第三是新的 CPU 和 LPU。CPU 代號 Rosa(以物理學家 Rosalyn Sussman Yalow 命名),LPU 升級到 LP40,由輝達和 Groq 團隊聯合設計。黃仁勳還提到,CPU 的開發週期已經從四年縮短到兩年,顯示輝達在自研 Arm 處理器上的投入正在加速。
我的觀察:台積電是這場軍備競賽的隱形主角
看完黃仁勳的硬體路線圖,最明顯的感受是:輝達「每年一個全新架構」的承諾,背後站著的是台積電。Vera Rubin 用台積電 3 奈米製程。COOP 共封裝光學也是和台積電合作開發。Feynman 的三維堆疊更需要台積電的先進封裝技術(CoWoS 和 SoIC)。
但有趣的是,Groq LP30 晶片是由三星量產的。這是輝達在供應鏈上的分散策略,也反映了 LPU 和 GPU 在製造需求上的差異。LPU 不需要最先進的製程節點(因為它的優勢來自架構而非電晶體密度),所以可以交給三星。GPU 則必須搶台積電最先進的產能。
對臺灣半導體產業來說,輝達每年推一個新架構意味著台積電的先進製程產能永遠不夠用。光是 Vera Rubin 一代,黃仁勳說供應鏈每月可以交付數個 gigawatt 等級的 AI 工廠。每個 gigawatt 工廠需要上千個 NVLink 72 機架,每個機架有 72 顆 GPU,每顆 GPU 是台積電 3 奈米最大面積的晶片之一。這種規模的需求,加上一年後又有 Rubin Ultra 和 Feynman 接棒,對台積電的產能規劃和資本支出形成了持續性的拉動力量。
另一個重要變數是光學互連。COOP 技術讓光學元件可以直接封裝在交換器晶片上,不需要外接光收發模組。這條技術路線如果成功擴展到 GPU 層級,可能會改變光通訊產業的供應鏈結構。臺灣有不少光通訊公司正在關注這個趨勢,但 COOP 的核心技術掌握在台積電和輝達手上,其他廠商的角色可能會被重新定義。
黃仁勳用了將近三小時講完這場演講,但硬體路線圖的部分只佔了大約四十分鐘。他花更多時間在講軟體、推論經濟學、AI Agent 和機器人。這本身就傳達了一個訊息:在輝達的世界觀裡,晶片只是基礎設施,真正的價值創造發生在上面跑的軟體和服務。但如果沒有這些瘋狂進化的晶片,那些軟體和服務也無從談起。