AI 技術前沿

GPU 的能效改善幾乎停了，下一代運算會長什麼樣？

NVIDIA GPU 的成本持續降低，但每瓦運算效能的進步幾乎停滯。Unconventional AI 創辦人 Naveen Rao 主張，問題出在 80 年前的馮紐曼架構。他提出用非線性動力學取代矩陣運算，讓晶片的物理特性直接執行計算，不再需要高耗能的記憶體存取。

2026 年 5 月 12 日 · 來源： Sequoia Capital (Training Data)

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的 AI Ascent 2026 演講。

封面圖

成本降了，但每瓦效能呢？

在所有關於 NVIDIA 的討論中，有一個數字很少被提起。GPU 的製造成本降低了，封裝技術也進步了，每一代產品確實比上一代便宜了一些。但如果看一個更根本的指標，「完成一次浮點運算加上記憶體存取，實際消耗多少電」，改善幅度其實非常有限。Unconventional AI 創辦人暨執行長 Naveen Rao 在 Sequoia Capital 的 AI Ascent 2026 活動上，把這個事實直接擺到了台面上。

Rao 在這個領域有 30 年的經歷。他是神經科學家出身，後來轉做電腦架構設計超過十年，創辦過被 Intel 收購的 AI 晶片公司 Nervana Systems，又創辦了被 Databricks 以 13 億美元收購的 AI 訓練平台 MosaicML。他對 GPU 的效能瓶頸，有第一手的觀察。

「NVIDIA 當然持續推進這個市場的邊界，」Rao 在演講中承認，但接著話鋒一轉，「但如果你看實際的每瓦運算效能，它進步得非常非常緩慢。」成本的改善來自製造和封裝技術的進步，不是來自運算效率的根本提升。這意味著就算你買到更便宜的 GPU，每一張卡燒掉的電還是差不多。當 AI 的運算需求每年翻倍成長，這個停滯就不只是技術問題，而是會變成一場能源危機。

搬資料這件事，佔了大部分的電力消耗

為什麼 GPU 的能效這麼難改善？答案藏在一個 80 年前做出的設計決定裡。

現代電腦，不管是 CPU 還是 GPU，都基於馮紐曼架構（Von Neumann architecture）。核心運作方式是：從記憶體讀取資料，送到處理器做運算，再把結果寫回記憶體。GPU 的改良只是把這件事變成平行的：一次搬一大批資料，同時做很多運算，再搬回去。近年來的「近記憶體運算」方案（像 Groq 的晶片）則是把運算搬到記憶體旁邊，減少搬運距離。但本質上，都還是在「搬」。

Rao 指出，正是這個「不斷搬資料」的動作，吃掉了現有運算系統裡最多的電力。不是運算本身多耗電，是搬進搬出的過程太燒能量了。馮紐曼架構的設計，讓你別無選擇：每一個運算步驟都需要把狀態「顯式」地寫出來再讀回去，因為處理器和記憶體是分開的。

這就是為什麼光靠更好的製程、更先進的封裝，沒辦法從根本解決問題。你可以把電晶體做得更小、把記憶體疊得更近，但只要架構的核心邏輯不變，「搬」這個動作就省不掉，對應的能耗也省不掉。

不搬資料的運算：讓物理替你算

Rao 的 Unconventional AI 提出的方案，是完全放棄馮紐曼架構。不是在它的基礎上改良，而是另起爐灶。

靈感來自大腦。神經元之間的互動不是線性的矩陣運算，而是非線性動力學：每個神經元像一個振盪器，透過與鄰近神經元的耦合，產生複雜的時變互動。大腦的「狀態」不需要被寫到某個記憶體裡再讀出來，它就「存在」於整個系統的動態過程中。運算和狀態重疊在一起，不需要分開處理。

Rao 在演講中展示了一個視覺化範例。一組振盪器放在同一塊板上，開始時各自隨機運動，但因為物理耦合，它們會自然同步。這是「倉本同步」（Kuramoto synchronization）的經典案例。Unconventional AI 的做法是把這種耦合做成可訓練的，讓系統能被引導到特定的狀態空間軌跡上。

具體怎麼運作？設定初始狀態，「踢」一下系統，然後讓物理自行演化。不需要從記憶體讀取任何東西，也不需要把結果寫回任何地方。狀態就隱含在系統的物理動態裡。Rao 展示了用這套方法做影像生成的範例：從隨機狀態出發，修正一次誤差後，系統會自然收斂到有意義的影像類別。貓歸貓、馬歸馬，系統學會了在自己的狀態空間裡移動。

這代表一種全新的運算層級。Rao 是這樣分類的：CPU 擅長快速的單執行緒運算，GPU 擅長大量平行的矩陣運算，而動力系統運算是第三種，狀態和功能與物理本身融為一體，運算和記憶不再分離。

沒有包袱的新創，六個月做出原型

在 AI 晶片領域，大公司的開發週期通常以年計算。從架構設計到流片（tape out），動輒需要兩到三年。Rao 在演講中透露，Unconventional AI 從「基本上沒有團隊」到做出完整晶片原型，只花了六個月。

「沒有包袱其實是真正的競爭優勢，」Rao 說。傳統晶片公司被鎖在既有的製程和設計工具鏈裡，每一代產品都必須向後相容，每一次改動都要考慮數十年累積的技術債。新創公司沒有這些限制，可以從頭開始問：「如果今天重新設計一台電腦，我們還會做同樣的選擇嗎？」

Rao 的答案很明確：不會。80 年前選擇數位抽象層、浮點數、馮紐曼架構，是因為當時的物理限制和應用場景。那個時代的電腦是為了計算彈道軌跡和人口普查，不是為了做智慧推論。現在任務完全不同了，但我們還在用同一套工具。

物理學裡有一個叫做「朗道爾原理」（Landauer principle）的概念，它規定了在一定能量下運算所能達到的理論效率上限。Rao 指出，生物系統已經相當接近這個極限了，但數位晶片距離生物系統還有大約三個數量級的差距。這意味著改善空間巨大，不需要等待物理學的新突破，光是用對的方法逼近已知的效率上限，就足以帶來顛覆性的進步。

我的觀察：NVIDIA 的護城河在哪一層？

NVIDIA 在 AI 運算市場的主導地位沒有人會質疑。從硬體（GPU）到軟體（CUDA 生態系）到開發者社群，它建構了一個極為強大的競爭壁壘。但 Rao 在演講裡質疑的，不是 NVIDIA 做矩陣運算做得好不好，而是矩陣運算本身還是不是正確的方向。

這是一個層次問題。如果 NVIDIA 的護城河建在「做矩陣運算做得最好」這一層，那只要矩陣運算還是主流，護城河就很深。但如果運算典範真的發生轉移，從數位邏輯走向類比動力系統，那 NVIDIA 在 CUDA 生態系上數十年的投資，可能就像當年柯達在底片技術上的投資一樣，變成一種鎖定而非資產。

當然，這種等級的典範轉移不會在一夜之間發生。馮紐曼架構不會明天就消失，CUDA 不會突然變得沒用。但 Unconventional AI 的出現，加上它背後那 4.75 億美元的種子輪和 45 億美元的估值，至少說明了一件事：全球最聰明的資金已經開始認真思考「GPU 之後」的世界長什麼樣。

對臺灣來說，這也是一個值得關注的訊號。我們的半導體產業高度集中在 NVIDIA 生態系裡，從台積電的先進製程到各家 IC 設計公司的 GPU 周邊晶片。如果下一個十年的運算典範真的開始轉向，提前理解這些新方向，不只是技術人員的功課，也是整個產業策略層面需要面對的問題。