黃仁勳:「電腦不再是倉庫,而是工廠」,NVIDIA 的四大 Scaling Law 與 10 兆美元路線圖
NVIDIA 執行長黃仁勳在 Lex Fridman Podcast 中完整闡述他的 AI 產業願景:從把 CUDA 放上 GeForce 的豪賭,到四大 Scaling Law 的演進邏輯,再到為什麼他認為 NVIDIA 成為 3 兆美元營收的公司「不受任何物理極限限制」。他將 OpenCLAW 稱為 token 的 iPhone,並宣稱 AGI 已經到來。

本文整理自《Lex Fridman Podcast》2026 年 3 月播出的單集。
{{< youtube vif8NQcjVf0 >}}
{{< spotify "episode/0BGcaYvcDPkvBzFmkRI5uY" >}}
{{< apple-podcast "tw/podcast/lex-fridman-podcast/id1434243584?i=1000756806357" >}}
如果只能用一句話總結黃仁勳(Jensen Huang)在這場兩個半小時訪談中反覆強調的核心信念,那就是:電腦已經從倉庫變成了工廠。倉庫用來存放預先錄製的檔案,工廠用來即時生產有價值的 token。這個轉變,是他認為 NVIDIA 成長「極有可能且不可避免」的根本原因。
把 CUDA 放上 GeForce:差點要了公司的命
要理解今天 NVIDIA 的護城河有多深,得先回到十多年前那個差點讓公司倒閉的決定。
NVIDIA 一開始是做加速器的,專門為圖形渲染優化。但加速器的問題在於應用範圍太窄,市場規模決定了研發預算,研發預算又限制了你能產生的影響力。所以黃仁勳知道,NVIDIA 必須從「加速器公司」變成「加速運算公司」。但這兩個詞之間有根本的張力:越通用就越不專精,越專精就越不通用。
NVIDIA 的做法是一步一步擴大光圈。先發明可程式化像素著色器(programmable pixel shader),讓 GPU 開始有可程式化的能力。再把 IEEE 相容的 FP32 放進著色器,吸引了原本在 CPU 上寫串流處理器的研究人員。然後從 CG 發展到 CUDA,一步步走向通用運算。
但真正的豪賭是把 CUDA 放上 GeForce。當時 GeForce 是消費級顯卡,玩家不會為 CUDA 多付一毛錢。但 CUDA 增加了 GPU 的成本約 50%,而 NVIDIA 當時的毛利率只有 35%。這個決定直接吃掉了公司幾乎所有的獲利空間。黃仁勳記得,NVIDIA 的市值從大約 70 億美元掉到了 15 億美元左右。
為什麼要冒這個險?因為黃仁勳堅信一件事:安裝基數(install base)是運算架構最重要的特性,比架構本身是否優雅重要得多。他舉了 x86 的例子。x86 在學術上被批評得體無完膚,大量設計精美的 RISC 架構都比它優雅。但 x86 活了下來,那些 RISC 架構大多失敗了,原因就是 x86 的安裝基數太龐大了。
把 CUDA 放上幾百萬張 GeForce 顯卡,等於把超級電腦送到了每一個大學實驗室、每一個研究生手上。那個年代還沒有雲端,PC 就是主要運算工具。研究人員發現他們的 GeForce 裡藏著一個運算平台,然後 CUDA 的生態系就這樣長出來了。黃仁勳說,他常講 NVIDIA 是「GeForce 蓋的房子」,因為是 GeForce 把 CUDA 帶到了全世界。
四大 Scaling Law:從「讀書」到「思考」到「分身」
黃仁勳在訪談中把 AI 的發展拆成四個 Scaling Law(規模定律),這個框架值得仔細理解,因為它直接對應了 NVIDIA 過去和未來的硬體設計方向。
第一個是預訓練規模定律(Pre-training Scaling Law)。 模型越大、資料越多,表現越好。一度有人擔心人類產生的高品質資料快要用完了,Ilya Sutskever 當時說了一句「預訓練結束了」之類的話,業界一度恐慌。但黃仁勳指出,大量的訓練資料將會是合成資料。他提醒了一個容易被忽略的事實:人類互相傳遞的資訊本來就是「合成」的,因為它不是直接從大自然蹦出來的,而是人類創造、消化、修改、再生成的。AI 現在能做同樣的事,而且規模大得多。結果是,訓練不再受限於資料,而是受限於算力。
第二個是後訓練規模定律(Post-training Scaling Law)。 透過微調和強化學習,在預訓練基礎上進一步提升能力。
第三個是測試時規模定律(Test-time Scaling Law)。 這是黃仁勳花最多篇幅反駁業界誤判的地方。他記得很多人說過,推論(inference)很簡單,只需要小晶片就夠了,不像訓練那樣需要 NVIDIA 的大型系統。推論晶片會商品化,人人都能做。
黃仁勳說這個判斷從一開始就不合邏輯。推論是「思考」,而思考比「閱讀」難得多。預訓練本質上是記憶和歸納,是在找模式和關係。推論則是推理、規劃、搜尋,是面對全新問題時拆解、嘗試、探索的過程。怎麼可能不需要大量算力?事實證明,測試時的運算密度確實非常高,NVIDIA 在這件事上完全正確。
第四個是 Agentic 規模定律(Agentic Scaling Law)。 這是黃仁勳最興奮的部分。當一個 AI Agent 可以在推理過程中衍生出大量子 Agent,就像一個員工可以即時雇用一整個團隊一樣,AI 的能力就不再是線性成長,而是指數級擴張。這些 Agent 在執行任務時會產生大量新資料和新經驗,其中好的部分會被回收到預訓練階段進行記憶和泛化,然後再透過後訓練微調,再透過測試時推理強化,最後再透過 Agent 系統部署出去。這四個 Scaling Law 形成一個持續加速的循環。
為什麼 NVIDIA 能提前兩年預判硬體方向
一個自然的疑問是:AI 模型架構大約每六個月就有重大創新(例如 Mixture of Experts、SSM 等),但硬體架構要三年才能更新一次。NVIDIA 怎麼確保今天設計的硬體,三年後還能跑上最新的模型?
黃仁勳說有三個方法。第一,NVIDIA 自己做基礎研究和應用研究,自己訓練模型,所以有第一手的工程經驗來預判未來方向。例如 Nemotron 3 不只是純 Transformer,還結合了 SSM,這本身就是在探索未來模型架構的可能性。第二,NVIDIA 是全世界唯一跟所有 AI 公司都有合作的公司,所以能從產業的集體動向中嗅到方向。第三,CUDA 的架構本身在專精和通用之間取得了平衡,既能加速又有彈性,這讓它能跟上不斷變化的演算法。
他用具體例子說明。Grace Blackwell 機架的設計完全是為了跑大型語言模型的推論,所以有 NVLink 72 讓整個模型跑在一個運算域裡。但一年後的 Vera Rubin 機架就完全不同了,加入了儲存加速器、全新的 Vera CPU、還有新的 Grok 機架。原因是前一代是為 MoE 大語言模型的推論設計的,新一代是為 Agent 設計的。Agent 會使用工具、存取檔案、做研究、產生子 Agent,所以需要完全不同的系統架構。
黃仁勳說,Vera Rubin 的設計必須在 Claude Code、Codex、OpenCLAW 出現之前就完成。那他怎麼知道的?他的回答出乎意料地樸素:你只要坐下來想就好了。如果你要讓一個大語言模型變成數位員工,它需要什麼?它需要存取檔案系統(真相來源),需要做研究(因為它不可能什麼都知道),需要使用工具。他甚至用人形機器人做比喻:它進到你家,是會把手變成十磅重的錘子,還是直接拿起你家的錘子?當然是後者。那它第一次遇到微波爐不會用怎麼辦?它連上網路,讀說明書,瞬間變成專家。
從倉庫到工廠:Token 經濟學與 NVIDIA 的 10 兆美元想像
黃仁勳用一個簡潔的框架解釋為什麼 NVIDIA 的成長「不可避免」。
過去的電腦本質上是倉庫。人類預先寫好、錄好、畫好東西,存成檔案,然後用推薦系統或搜尋引擎找出來給你。這是一個以儲存為核心的世界。但 AI 電腦是即時感知情境、即時生成回應的。它需要的不是儲存空間,而是運算能力。這是運算需求的根本性躍升。
更重要的是,電腦的「目的」變了。它不再只是工具,而是工廠。工廠生產的商品是 token,而 token 直接跟企業營收掛鉤。黃仁勳觀察到,token 正在像 iPhone 一樣開始分層定價:有免費的 token、有高級的 token、有介於中間的各種等級。他預測很快就會有人願意為每百萬 token 支付 1,000 美元,因為那些 token 處理的是高度專業的任務。
在這個框架下,NVIDIA 的問題不是「能搶到多少市場份額」,而是「市場本身會長到多大」。黃仁勳直言,他不是在跟誰搶份額,因為他談的那些市場大多還不存在。被問到 NVIDIA 是否可能達到 3 兆美元的年營收,他的回答是:當然可以,沒有任何物理極限說不行。NVIDIA 的供應鏈負擔由 200 家公司共同分攤,唯一的問題是有沒有足夠的能源,而他相信一定會有。
OpenCLAW 是 Token 的 iPhone
黃仁勳把 OpenCLAW 稱為「token 的 iPhone」。他的意思是,就像 iPhone 讓每個人都成為 app 的消費者一樣,Agent 讓每個人都成為 token 的消費者。而且 Agent 的成長速度比任何應用都快,「直線上升」。
他分享了一個小故事:Lex Fridman 在來的路上,在機場對著筆電說話「寫程式」,這是他第一次在公共場合這樣做。黃仁勳的反應是:未來最常跟你聊天、發訊息的,不是你的朋友,而是你的 AI Agent。因為它做事太快了,會不斷跑回來跟你說:「做完了,接下來要做什麼?」
被問到 AGI 是否已經到來,黃仁勳的回答是:已經了。他的定義很實際。一個 AI Agent 有沒有可能創建一個網路服務、讓幾十億人各付 50 美分、然後市值超過 10 億美元?在網路時代,大量這樣的公司存在過,而且它們的技術複雜度並不超過今天的 OpenCLAW 能生成的東西。不過他也補充,十萬個這樣的 Agent 建出另一個 NVIDIA 的機率是 0%。
我的觀察
黃仁勳把「四大 Scaling Law」講成一個循環系統,而不是四條獨立的定律,這個框架比多數產業分析都更有解釋力。很多人還在爭論「預訓練是不是撞牆了」「推論到底需不需要大算力」,但黃仁勳的框架直接跳過了這些二元對立。在他的模型裡,預訓練、後訓練、推論、Agent 不是互相替代的關係,而是互相餵養的。Agent 產生的好經驗會被回收到預訓練裡,訓練出來的模型會被推論強化,推論的結果會被 Agent 拿去執行任務、產生更多經驗。這是一個飛輪,每個環節的進步都在加速其他環節。
另一個有趣的點是黃仁勳對「token 經濟」的描述方式。他不只是說 token 會越來越便宜(這是多數人的敘事),他同時在說 token 會分層定價,高端 token 的單價會越來越高。這意味著 NVIDIA 的客戶不只是在追求「更便宜的算力」,也在追求「更高品質的推論」。這兩個需求同時存在,而且都需要更多、更好的硬體。對投資人和產業從業者來說,理解這個雙向拉力比單純關注「token 成本下降曲線」重要得多。