GPU 的能效改善幾乎停了,下一代運算會長什麼樣?
NVIDIA GPU 的成本持續降低,但每瓦運算效能的進步幾乎停滯。Unconventional AI 創辦人 Naveen Rao 主張,問題出在 80 年前的馮紐曼架構。他提出用非線性動力學取代矩陣運算,讓晶片的物理特性直接執行計算,不再需要高耗能的記憶體存取。

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的 AI Ascent 2026 演講。
{{< youtube Zw1J5pJJMGw >}}

成本降了,但每瓦效能呢?
在所有關於 NVIDIA 的討論中,有一個數字很少被提起。GPU 的製造成本降低了,封裝技術也進步了,每一代產品確實比上一代便宜了一些。但如果看一個更根本的指標,「完成一次浮點運算加上記憶體存取,實際消耗多少電」,改善幅度其實非常有限。Unconventional AI 創辦人暨執行長 Naveen Rao 在 Sequoia Capital 的 AI Ascent 2026 活動上,把這個事實直接擺到了台面上。
Rao 在這個領域有 30 年的經歷。他是神經科學家出身,後來轉做電腦架構設計超過十年,創辦過被 Intel 收購的 AI 晶片公司 Nervana Systems,又創辦了被 Databricks 以 13 億美元收購的 AI 訓練平台 MosaicML。他對 GPU 的效能瓶頸,有第一手的觀察。
「NVIDIA 當然持續推進這個市場的邊界,」Rao 在演講中承認,但接著話鋒一轉,「但如果你看實際的每瓦運算效能,它進步得非常非常緩慢。」成本的改善來自製造和封裝技術的進步,不是來自運算效率的根本提升。這意味著就算你買到更便宜的 GPU,每一張卡燒掉的電還是差不多。當 AI 的運算需求每年翻倍成長,這個停滯就不只是技術問題,而是會變成一場能源危機。
搬資料這件事,佔了大部分的電力消耗
為什麼 GPU 的能效這麼難改善?答案藏在一個 80 年前做出的設計決定裡。
現代電腦,不管是 CPU 還是 GPU,都基於馮紐曼架構(Von Neumann architecture)。核心運作方式是:從記憶體讀取資料,送到處理器做運算,再把結果寫回記憶體。GPU 的改良只是把這件事變成平行的:一次搬一大批資料,同時做很多運算,再搬回去。近年來的「近記憶體運算」方案(像 Groq 的晶片)則是把運算搬到記憶體旁邊,減少搬運距離。但本質上,都還是在「搬」。
Rao 指出,正是這個「不斷搬資料」的動作,吃掉了現有運算系統裡最多的電力。不是運算本身多耗電,是搬進搬出的過程太燒能量了。馮紐曼架構的設計,讓你別無選擇:每一個運算步驟都需要把狀態「顯式」地寫出來再讀回去,因為處理器和記憶體是分開的。
這就是為什麼光靠更好的製程、更先進的封裝,沒辦法從根本解決問題。你可以把電晶體做得更小、把記憶體疊得更近,但只要架構的核心邏輯不變,「搬」這個動作就省不掉,對應的能耗也省不掉。
不搬資料的運算:讓物理替你算
Rao 的 Unconventional AI 提出的方案,是完全放棄馮紐曼架構。不是在它的基礎上改良,而是另起爐灶。
靈感來自大腦。神經元之間的互動不是線性的矩陣運算,而是非線性動力學:每個神經元像一個振盪器,透過與鄰近神經元的耦合,產生複雜的時變互動。大腦的「狀態」不需要被寫到某個記憶體裡再讀出來,它就「存在」於整個系統的動態過程中。運算和狀態重疊在一起,不需要分開處理。
Rao 在演講中展示了一個視覺化範例。一組振盪器放在同一塊板上,開始時各自隨機運動,但因為物理耦合,它們會自然同步。這是「倉本同步」(Kuramoto synchronization)的經典案例。Unconventional AI 的做法是把這種耦合做成可訓練的,讓系統能被引導到特定的狀態空間軌跡上。
具體怎麼運作?設定初始狀態,「踢」一下系統,然後讓物理自行演化。不需要從記憶體讀取任何東西,也不需要把結果寫回任何地方。狀態就隱含在系統的物理動態裡。Rao 展示了用這套方法做影像生成的範例:從隨機狀態出發,修正一次誤差後,系統會自然收斂到有意義的影像類別。貓歸貓、馬歸馬,系統學會了在自己的狀態空間裡移動。
這代表一種全新的運算層級。Rao 是這樣分類的:CPU 擅長快速的單執行緒運算,GPU 擅長大量平行的矩陣運算,而動力系統運算是第三種,狀態和功能與物理本身融為一體,運算和記憶不再分離。
沒有包袱的新創,六個月做出原型
在 AI 晶片領域,大公司的開發週期通常以年計算。從架構設計到流片(tape out),動輒需要兩到三年。Rao 在演講中透露,Unconventional AI 從「基本上沒有團隊」到做出完整晶片原型,只花了六個月。
「沒有包袱其實是真正的競爭優勢,」Rao 說。傳統晶片公司被鎖在既有的製程和設計工具鏈裡,每一代產品都必須向後相容,每一次改動都要考慮數十年累積的技術債。新創公司沒有這些限制,可以從頭開始問:「如果今天重新設計一台電腦,我們還會做同樣的選擇嗎?」
Rao 的答案很明確:不會。80 年前選擇數位抽象層、浮點數、馮紐曼架構,是因為當時的物理限制和應用場景。那個時代的電腦是為了計算彈道軌跡和人口普查,不是為了做智慧推論。現在任務完全不同了,但我們還在用同一套工具。
物理學裡有一個叫做「朗道爾原理」(Landauer principle)的概念,它規定了在一定能量下運算所能達到的理論效率上限。Rao 指出,生物系統已經相當接近這個極限了,但數位晶片距離生物系統還有大約三個數量級的差距。這意味著改善空間巨大,不需要等待物理學的新突破,光是用對的方法逼近已知的效率上限,就足以帶來顛覆性的進步。
我的觀察:NVIDIA 的護城河在哪一層?
NVIDIA 在 AI 運算市場的主導地位沒有人會質疑。從硬體(GPU)到軟體(CUDA 生態系)到開發者社群,它建構了一個極為強大的競爭壁壘。但 Rao 在演講裡質疑的,不是 NVIDIA 做矩陣運算做得好不好,而是矩陣運算本身還是不是正確的方向。
這是一個層次問題。如果 NVIDIA 的護城河建在「做矩陣運算做得最好」這一層,那只要矩陣運算還是主流,護城河就很深。但如果運算典範真的發生轉移,從數位邏輯走向類比動力系統,那 NVIDIA 在 CUDA 生態系上數十年的投資,可能就像當年柯達在底片技術上的投資一樣,變成一種鎖定而非資產。
當然,這種等級的典範轉移不會在一夜之間發生。馮紐曼架構不會明天就消失,CUDA 不會突然變得沒用。但 Unconventional AI 的出現,加上它背後那 4.75 億美元的種子輪和 45 億美元的估值,至少說明了一件事:全球最聰明的資金已經開始認真思考「GPU 之後」的世界長什麼樣。
對臺灣來說,這也是一個值得關注的訊號。我們的半導體產業高度集中在 NVIDIA 生態系裡,從台積電的先進製程到各家 IC 設計公司的 GPU 周邊晶片。如果下一個十年的運算典範真的開始轉向,提前理解這些新方向,不只是技術人員的功課,也是整個產業策略層面需要面對的問題。