黃仁勳的 Token 經濟學:為什麼他看到 1 兆美元的 AI 需求
黃仁勳在 GTC 2026 宣布 AI 基礎設施需求已從去年的 5,000 億升至至少 1 兆美元。他用三個里程碑解釋推論拐點的到來,並展示 Dynamo 推論作業系統如何在同一硬體上將效能提升 7 倍。當 Token 成為新的貨幣單位,資料中心正在變成 Token 工廠。

本文整理自 NVIDIA GTC 2026 主題演講,2026 年 3 月 16 日發表。
{{< youtube jw_o0xr8MWU >}}
從 5,000 億到 1 兆:一年之內翻倍的需求
去年的 GTC,黃仁勳(Jensen Huang)站在同一個舞台上說,他看到了 5,000 億美元的 AI 基礎設施需求,時間窗口是到 2026 年底。當時很多人覺得這個數字太誇張。一年後,他把數字調高了:至少 1 兆美元,時間窗口延伸到 2027 年。他還加了一句「我預期實際需求會更高」。
這個數字怎麼來的?黃仁勳把輝達的客戶結構攤開來看。60% 的營收來自全球前五大超大規模雲端服務商(Microsoft、Google、Amazon、Meta、Oracle),這些公司的 AI 資本支出計畫已經公開,加起來就是一個天文數字。剩下 40% 來自區域雲端、主權雲端、企業、工業、機器人和邊緣運算,這塊市場正在快速成長。
他特別提到兩個客戶的選擇。Anthropic 和 Meta 都決定押注輝達的平台,這兩家公司合計大約佔全球 AI 算力的三分之一。再加上開源模型已經接近前沿水準而且無處不在,對推論算力的需求只會持續膨脹。1,500 億美元的創投資金湧入 AI 新創,這是人類史上最大規模的新創投資。而且這一次每家新創都需要大量的算力和 token。過去一家新創可能只需要幾萬美元的雲端帳單,現在動輒數億美元。
推論的三個里程碑:ChatGPT、O1、Claude Code
黃仁勳用三個產品來標記 AI 推論需求的爆發軌跡,而且他的描述方式很有意思,講的是「計算需求」而非技術角度。
第一個里程碑是 2022 年底的 ChatGPT。它證明了生成式 AI 可以做到以前檢索式系統做不到的事。計算模式從「查找」變成「生成」,每一次回應都需要 GPU 即時運算,而不是從資料庫裡撈答案。這一步讓 AI 推論從幾乎不存在的市場,變成一個真實的產業。
第二個里程碑是 2024 年的 O1 和 O3(OpenAI 的推理模型)。黃仁勳說這一步「讓 AI 變得值得信賴」,因為推理模型會在回答之前先「思考」,它會拆解問題、驗證邏輯、修正錯誤。代價是:每一次回應需要的算力增加了 10 到 100 倍。一個簡單問題可能只需要幾百個 token,一個推理鏈可能需要幾千甚至上萬個 token。
第三個里程碑是 Claude Code,黃仁勳稱之為「第一個真正的 agentic 模型」。他說 Claude Code 徹底改變了軟體工程,因為它不只是回答問題,而是真的在寫程式碼、測試、修復 bug、提交 commit。輝達內部 100% 的軟體工程師現在都在使用 AI 程式碼助手(Claude Code、Codex、Cursor)。Agent 模式的計算需求又比推理模式高了一個數量級,因為一個 agent 可能會自主執行數十個步驟,每個步驟都需要推論。
這三個里程碑加在一起,兩年之內把 AI 的計算需求推高了大約 10,000 倍。使用量增加了大約 100 倍。這就是為什麼黃仁勳說推論是「終極的硬問題」,也是輝達營收的核心驅動力。
Dynamo:同一堆硬體,效能翻 7 倍
如果說硬體決定了算力的上限,軟體就決定了你能用到多少。黃仁勳在 GTC 上用了一個很有說服力的例子來解釋這一點。
推論服務商 Fireworks 和 Together AI 在使用 Grace Blackwell 硬體時,原本的 token 生成速度大約是每秒 700 個 token。輝達推送了一次 Dynamo 的軟體更新之後,同一批硬體的速度跳到每秒 5,000 個 token。硬體完全沒換,純粹是軟體最佳化帶來的 7 倍效能提升。
Dynamo 是輝達在 GTC 2026 發表的開源推論作業系統,版本號 1.0。它做的事情用白話說就是:管理一座 AI 工廠裡數千張 GPU 的推論工作負載。具體來說,它有幾個核心元件。SLO Planner 會根據服務等級目標(比如「回應延遲不超過 200 毫秒」)動態調整 GPU 資源分配。KV-cache-aware router 知道哪張 GPU 上已經快取了哪些上下文,可以把相關的請求導到正確的 GPU 上,避免重複計算。NIXL 函式庫負責 GPU 之間的低延遲資料傳輸。
Dynamo 已經被 AWS、Azure、Google Cloud、Oracle Cloud、CoreWeave 採用,也被 Cursor、Perplexity、ByteDance、PayPal、Pinterest 等公司使用。它支援 SGLang、TensorRT LLM 和 vLLM 三個主流推論框架。黃仁勳特別強調 Dynamo 是開源的,GitHub 上可以直接取得。
這背後的商業邏輯很清楚:讓推論的軟體堆疊變成輝達硬體的護城河。就像 CUDA 把 GPU 從一個顯示卡產品變成通用計算平台,Dynamo 要把輝達的 AI 工廠從「賣硬體」變成「賣基礎設施」。
Token 的定價分層:從免費到每百萬個 150 美元
黃仁勳花了一段時間解釋「token 經濟學」,這是整場演講中最商業導向的一段。他把 token 的價格分成幾個層級:免費層、每百萬個 token 3 美元、6 美元、45 美元、150 美元,甚至更高的 premium 層級。
不同層級對應的是不同的服務品質和速度。免費層可能要排隊、可能比較慢,適合非即時的批次處理。低價層適合大量的 API 呼叫,比如客服機器人。中價層適合需要推理能力的應用。高價層適合即時互動的程式碼生成或 agent 工作流程,需要極高的 token 速度和極低的延遲。
這個分層結構解釋了為什麼 Groq LPU 的整合這麼重要。在最高價值的推論層級上,使用者願意為更快的 token 速度付出更高的價格。Groq 的加入讓輝達可以在這個高價區間提供遠超競爭對手的速度,從而獲取最高的利潤。黃仁勳的說法是:Grace Blackwell 的 token 成本已經是「全世界最低、無人能及」,而 Vera Rubin 在每個 gigawatt 工廠裡產生的營收是 Blackwell 的 5 倍。
他還算了一筆帳:一座 1 gigawatt 的資料中心,光是 15 年的攤提成本就要 400 億美元。就算裡面什麼都不裝。所以「空轉」是 AI 工廠最大的浪費,每一個 GPU 的每一秒都應該在生產 token。
DSX:用數位雙生管理 AI 工廠
為了讓 AI 工廠的每一瓦電力都發揮最大價值,輝達推出了 DSX 平台。這是基於 Omniverse 的數位雙生系統,專門用來設計和營運 AI 工廠。
DSX 有四個核心 API。DSXSim 可以模擬 AI 工廠的物理、電氣、散熱和網路環境。DSXExchange 匯集營運資料。DSXFlex 管理 AI 工廠和電網之間的動態電力調度。DSXMaxQ 在給定的電力預算下最大化 token 產出。
黃仁勳說,透過 DSX 的最佳化,AI 工廠的能源效率有「兩倍」的提升空間。這意味著同樣一座 1 gigawatt 的工廠,經過 DSX 最佳化之後,可以產出接近兩倍的 token,或者用一半的電力達到同樣的產出。合作夥伴包括 PTC、Dassault Systèmes(達梭系統)、Jacobs、Siemens 和 Cadence。
他甚至還展示了 AI agent 來管理 AI 工廠:Phaedra 負責冷卻和電力系統的即時調控,Emerald AI 負責偵測電網的負載壓力訊號。用 AI 來管理生產 AI 的工廠,這大概是 2026 年最 meta 的一件事。
我的觀察:Token 正在變成新的大宗商品
看完黃仁勳的 token 經濟學敘事,有一個趨勢越來越清楚:token 正在經歷跟電力、頻寬類似的商品化過程。
回想 2023 年初,OpenAI 的 GPT-4 API 定價是每百萬輸入 token 30 美元。兩年後的今天,各家的價格已經降到個位數甚至免費。黃仁勳展示的價格分層,本質上就是把 token 當成電信業的流量方案在賣。這對 AI 產業的影響很深遠:當 token 的邊際成本趨近於零,真正的價值在使用 token 的應用和工作流程,而非 token 本身。
臺灣企業在思考 AI 策略時,這個趨勢值得注意。很多公司還在猶豫要不要「自建 AI」,擔心成本太高。但如果 token 的價格持續以這種速度下降,問題就變成「不用 AI 的機會成本是多少」。Dynamo 這類開源工具的出現也降低了門檻,不一定要從零建起整套推論堆疊。
更值得關注的是黃仁勳提到的那個數字:兩年內 token 生產效率提升了 350 倍(從一座 1 GW 工廠的 200 萬 token/秒到 7 億 token/秒)。這種效率提升速度意味著,今天看起來不可能的應用場景,18 個月後可能就會變得理所當然。就像寬頻普及之後催生了串流影音,token 成本暴降之後會催生什麼,可能連黃仁勳自己也還不完全知道。