AI 產業動態

黃仁勳的 Token 經濟學：為什麼他看到 1 兆美元的 AI 需求

黃仁勳在 GTC 2026 宣布 AI 基礎設施需求已從去年的 5,000 億升至至少 1 兆美元。他用三個里程碑解釋推論拐點的到來，並展示 Dynamo 推論作業系統如何在同一硬體上將效能提升 7 倍。當 Token 成為新的貨幣單位，資料中心正在變成 Token 工廠。

2026 年 3 月 23 日 · 來源： NVIDIA GTC 2026 Keynote

本文整理自 NVIDIA GTC 2026 主題演講，2026 年 3 月 16 日發表。

從 5,000 億到 1 兆：一年之內翻倍的需求

去年的 GTC，黃仁勳（Jensen Huang）站在同一個舞台上說，他看到了 5,000 億美元的 AI 基礎設施需求，時間窗口是到 2026 年底。當時很多人覺得這個數字太誇張。一年後，他把數字調高了：至少 1 兆美元，時間窗口延伸到 2027 年。他還加了一句「我預期實際需求會更高」。

這個數字怎麼來的？黃仁勳把輝達的客戶結構攤開來看。60% 的營收來自全球前五大超大規模雲端服務商（Microsoft、Google、Amazon、Meta、Oracle），這些公司的 AI 資本支出計畫已經公開，加起來就是一個天文數字。剩下 40% 來自區域雲端、主權雲端、企業、工業、機器人和邊緣運算，這塊市場正在快速成長。

他特別提到兩個客戶的選擇。Anthropic 和 Meta 都決定押注輝達的平台，這兩家公司合計大約佔全球 AI 算力的三分之一。再加上開源模型已經接近前沿水準而且無處不在，對推論算力的需求只會持續膨脹。1,500 億美元的創投資金湧入 AI 新創，這是人類史上最大規模的新創投資。而且這一次每家新創都需要大量的算力和 token。過去一家新創可能只需要幾萬美元的雲端帳單，現在動輒數億美元。

推論的三個里程碑：ChatGPT、O1、Claude Code

黃仁勳用三個產品來標記 AI 推論需求的爆發軌跡，而且他的描述方式很有意思，講的是「計算需求」而非技術角度。

第一個里程碑是 2022 年底的 ChatGPT。它證明了生成式 AI 可以做到以前檢索式系統做不到的事。計算模式從「查找」變成「生成」，每一次回應都需要 GPU 即時運算，而不是從資料庫裡撈答案。這一步讓 AI 推論從幾乎不存在的市場，變成一個真實的產業。

第二個里程碑是 2024 年的 O1 和 O3（OpenAI 的推理模型）。黃仁勳說這一步「讓 AI 變得值得信賴」，因為推理模型會在回答之前先「思考」，它會拆解問題、驗證邏輯、修正錯誤。代價是：每一次回應需要的算力增加了 10 到 100 倍。一個簡單問題可能只需要幾百個 token，一個推理鏈可能需要幾千甚至上萬個 token。

第三個里程碑是 Claude Code，黃仁勳稱之為「第一個真正的 agentic 模型」。他說 Claude Code 徹底改變了軟體工程，因為它不只是回答問題，而是真的在寫程式碼、測試、修復 bug、提交 commit。輝達內部 100% 的軟體工程師現在都在使用 AI 程式碼助手（Claude Code、Codex、Cursor）。Agent 模式的計算需求又比推理模式高了一個數量級，因為一個 agent 可能會自主執行數十個步驟，每個步驟都需要推論。

這三個里程碑加在一起，兩年之內把 AI 的計算需求推高了大約 10,000 倍。使用量增加了大約 100 倍。這就是為什麼黃仁勳說推論是「終極的硬問題」，也是輝達營收的核心驅動力。

Dynamo：同一堆硬體，效能翻 7 倍

如果說硬體決定了算力的上限，軟體就決定了你能用到多少。黃仁勳在 GTC 上用了一個很有說服力的例子來解釋這一點。

推論服務商 Fireworks 和 Together AI 在使用 Grace Blackwell 硬體時，原本的 token 生成速度大約是每秒 700 個 token。輝達推送了一次 Dynamo 的軟體更新之後，同一批硬體的速度跳到每秒 5,000 個 token。硬體完全沒換，純粹是軟體最佳化帶來的 7 倍效能提升。

Dynamo 是輝達在 GTC 2026 發表的開源推論作業系統，版本號 1.0。它做的事情用白話說就是：管理一座 AI 工廠裡數千張 GPU 的推論工作負載。具體來說，它有幾個核心元件。SLO Planner 會根據服務等級目標（比如「回應延遲不超過 200 毫秒」）動態調整 GPU 資源分配。KV-cache-aware router 知道哪張 GPU 上已經快取了哪些上下文，可以把相關的請求導到正確的 GPU 上，避免重複計算。NIXL 函式庫負責 GPU 之間的低延遲資料傳輸。

Dynamo 已經被 AWS、Azure、Google Cloud、Oracle Cloud、CoreWeave 採用，也被 Cursor、Perplexity、ByteDance、PayPal、Pinterest 等公司使用。它支援 SGLang、TensorRT LLM 和 vLLM 三個主流推論框架。黃仁勳特別強調 Dynamo 是開源的，GitHub 上可以直接取得。

這背後的商業邏輯很清楚：讓推論的軟體堆疊變成輝達硬體的護城河。就像 CUDA 把 GPU 從一個顯示卡產品變成通用計算平台，Dynamo 要把輝達的 AI 工廠從「賣硬體」變成「賣基礎設施」。

Token 的定價分層：從免費到每百萬個 150 美元

黃仁勳花了一段時間解釋「token 經濟學」，這是整場演講中最商業導向的一段。他把 token 的價格分成幾個層級：免費層、每百萬個 token 3 美元、6 美元、45 美元、150 美元，甚至更高的 premium 層級。

不同層級對應的是不同的服務品質和速度。免費層可能要排隊、可能比較慢，適合非即時的批次處理。低價層適合大量的 API 呼叫，比如客服機器人。中價層適合需要推理能力的應用。高價層適合即時互動的程式碼生成或 agent 工作流程，需要極高的 token 速度和極低的延遲。

這個分層結構解釋了為什麼 Groq LPU 的整合這麼重要。在最高價值的推論層級上，使用者願意為更快的 token 速度付出更高的價格。Groq 的加入讓輝達可以在這個高價區間提供遠超競爭對手的速度，從而獲取最高的利潤。黃仁勳的說法是：Grace Blackwell 的 token 成本已經是「全世界最低、無人能及」，而 Vera Rubin 在每個 gigawatt 工廠裡產生的營收是 Blackwell 的 5 倍。

他還算了一筆帳：一座 1 gigawatt 的資料中心，光是 15 年的攤提成本就要 400 億美元。就算裡面什麼都不裝。所以「空轉」是 AI 工廠最大的浪費，每一個 GPU 的每一秒都應該在生產 token。

DSX：用數位雙生管理 AI 工廠

為了讓 AI 工廠的每一瓦電力都發揮最大價值，輝達推出了 DSX 平台。這是基於 Omniverse 的數位雙生系統，專門用來設計和營運 AI 工廠。

DSX 有四個核心 API。DSXSim 可以模擬 AI 工廠的物理、電氣、散熱和網路環境。DSXExchange 匯集營運資料。DSXFlex 管理 AI 工廠和電網之間的動態電力調度。DSXMaxQ 在給定的電力預算下最大化 token 產出。

黃仁勳說，透過 DSX 的最佳化，AI 工廠的能源效率有「兩倍」的提升空間。這意味著同樣一座 1 gigawatt 的工廠，經過 DSX 最佳化之後，可以產出接近兩倍的 token，或者用一半的電力達到同樣的產出。合作夥伴包括 PTC、Dassault Systèmes（達梭系統）、Jacobs、Siemens 和 Cadence。

他甚至還展示了 AI agent 來管理 AI 工廠：Phaedra 負責冷卻和電力系統的即時調控，Emerald AI 負責偵測電網的負載壓力訊號。用 AI 來管理生產 AI 的工廠，這大概是 2026 年最 meta 的一件事。

我的觀察：Token 正在變成新的大宗商品

看完黃仁勳的 token 經濟學敘事，有一個趨勢越來越清楚：token 正在經歷跟電力、頻寬類似的商品化過程。

回想 2023 年初，OpenAI 的 GPT-4 API 定價是每百萬輸入 token 30 美元。兩年後的今天，各家的價格已經降到個位數甚至免費。黃仁勳展示的價格分層，本質上就是把 token 當成電信業的流量方案在賣。這對 AI 產業的影響很深遠：當 token 的邊際成本趨近於零，真正的價值在使用 token 的應用和工作流程，而非 token 本身。

臺灣企業在思考 AI 策略時，這個趨勢值得注意。很多公司還在猶豫要不要「自建 AI」，擔心成本太高。但如果 token 的價格持續以這種速度下降，問題就變成「不用 AI 的機會成本是多少」。Dynamo 這類開源工具的出現也降低了門檻，不一定要從零建起整套推論堆疊。

更值得關注的是黃仁勳提到的那個數字：兩年內 token 生產效率提升了 350 倍（從一座 1 GW 工廠的 200 萬 token/秒到 7 億 token/秒）。這種效率提升速度意味著，今天看起來不可能的應用場景，18 個月後可能就會變得理所當然。就像寬頻普及之後催生了串流影音，token 成本暴降之後會催生什麼，可能連黃仁勳自己也還不完全知道。