AI 技術前沿

AI 基礎設施正在重演半導體的老劇本：把專用功能從通用處理器卸載出去

CPU 卸載 I/O 給專用晶片、卸載圖形給 GPU、卸載網路給 NIC。現在 LLM 正在經歷同樣的事：把知識檢索卸載給專用的知識引擎。這個模式每次出現，都催生出價值數百億美元的新產業。

2026 年 5 月 17 日 · 來源： AI + a16z

本文整理自《AI + a16z》2026 年 5 月播出的單集。

封面圖

一個反覆上演的劇本

運算史上有一個不斷重複的模式：當某種特定功能在通用處理器上執行得太昂貴，產業就會把它卸載到專用的硬體或系統上。這個模式在過去半世紀至少重演了四、五次，每一次都催生出龐大的新產業。Pinecone 執行長阿什．阿舒托什（Ash Ashutosh）和 a16z 合夥人彼得．乃文（Peter Levine）在最近一集 Podcast 中，把這個歷史框架套到當前的 AI 基礎設施上，論述 LLM 正在經歷相同的卸載過程。

最經典的例子是 I/O 處理。早期電腦的所有輸入輸出操作都由 CPU 直接處理，包括磁碟讀寫、印表機控制、鍵盤輸入。當這些操作佔用太多 CPU 週期時，產業的回應是設計專用的 I/O 控制器和 DMA（直接記憶體存取）晶片，把這些重複性高但不需要複雜運算的任務從 CPU 手中接過來。CPU 釋放出來的算力可以專注在真正需要通用運算能力的任務上。

圖形處理走了完全相同的路。1990 年代以前，所有的圖形渲染都由 CPU 負責。當 3D 遊戲和圖形介面的需求爆發時，CPU 根本忙不過來。NVIDIA 等公司的 GPU 就是在這個背景下誕生的：把高度平行化的圖形計算從 CPU 卸載到專用晶片。後來 GPU 又因為同樣的平行運算特性，被拿來做深度學習訓練，這是另一個意料之外的卸載故事。網路處理也經歷了類似的演化，從 CPU 軟體處理封包，到專用網路卡（NIC）、再到智慧型網路卡（SmartNIC）和 DPU（Data Processing Unit）。

LLM 就是新一代的「超載 CPU」

把這個框架套到現在的 AI 基礎設施，LLM 就是那個被迫做太多事的通用處理器。模型本身的核心能力是推理：理解語境、做出判斷、產生回應。但在現實的 Agent 應用中，LLM 有 85% 的時間花在知識檢索上，只有 15% 在做真正的推理。這就像 1980 年代的 CPU 花大量週期在處理磁碟 I/O，明明它的核心價值是做運算。

問題的根源在於：目前的 AI 應用架構把知識檢索當成「模型的一部分」來處理。Agent 透過 LLM 發出查詢、解讀結果、再發出更多查詢，整個檢索循環都在消耗模型的推理能力和 token 預算。這就像讓 CPU 直接管理每一個磁碟的讀寫頭位置，而不是把這件事交給磁碟控制器。技術上可以做到，但極度浪費資源。

阿舒托什提到一個具體數字：他們的內部 Agent 應用在傳統架構下，每次查詢消耗約 40,000 個 token。把知識檢索卸載到專用的知識引擎後，同樣的查詢只需要 2,000 個 token。這 95% 的降幅，性質上跟把圖形渲染從 CPU 卸載到 GPU 後的效能提升是一樣的：不是因為你的「CPU」（LLM）變強了，而是因為你終於不再逼它做不擅長的事。

卸載的經濟邏輯

每一次卸載浪潮背後的經濟邏輯都是一樣的：通用處理器的單位成本太高，不值得拿來做可以被專用化的工作。GPU 取代 CPU 做圖形運算，靠的是用便宜的平行核心做重複運算，單位成本遠低於通用 CPU。知識引擎取代 LLM 做知識檢索的邏輯完全相同：預先編譯好的知識結構可以直接回應查詢，省去讓模型反覆推理的昂貴代價。重點從來都不是「誰比較聰明」，而是「誰做這件事比較便宜」。

乃文在對談中提到了一個觀察：如果你拉遠來看，我們正處在 AI 基礎設施優化的極早期階段。就像 CPU 卸載 I/O、卸載圖形、卸載網路的過程催生了整個半導體產業的多個子領域，LLM 卸載各種專用功能的過程也會催生大量新公司和新產業。知識檢索只是第一個被明確辨識出來的卸載目標，接下來可能還有記憶管理、工具呼叫最佳化、多 Agent 協調等功能也會經歷類似的專用化過程。

從成本結構來看，這個趨勢幾乎是不可逆的。LLM 推理的定價是按 token 計費的，而且頂尖模型的 token 價格短期內不會降到零。任何能減少 token 消耗的技術，在經濟上都有立即的吸引力。Pinecone 聲稱 Nexus 能減少 40% 到 90% 的 token 使用量，如果這個數字成立，對於大量使用 Agent 的企業來說，投資報酬率是立即且可量化的。

每次卸載都需要新的介面標準

歷史上每一次功能卸載，都伴隨著新的介面標準的誕生。CPU 和 I/O 設備之間有了 PCI 匯流排。CPU 和 GPU 之間有了 PCIe、CUDA。應用程式和資料庫之間有了 SQL。API 之間有了 REST、GraphQL。這些標準的功能是讓「主處理器」和「專用處理器」能有效溝通，而不需要每次都從零開始設計介面。

在 LLM 和知識引擎之間，Pinecone 提出的介面標準是 NoQL（Knowledge Query Language）。它讓 Agent 能用結構化的方式告訴知識引擎：我要什麼資訊、我的時間預算是多少、我能存取哪些資料。這個定位跟 SQL 的歷史角色確實類似：在 SQL 出現之前，每個應用程式都要自己寫資料存取邏輯；SQL 出現後，這個介面被標準化了，資料庫產業才真正爆發。

不過歷史也告訴我們，介面標準的建立往往是漫長且混亂的過程。PCI 打敗了 ISA、EISA、MCA 等多個競爭標準。SQL 花了十幾年才真正統一市場。在 Agent 和知識系統之間，目前已經有 MCP（Model Context Protocol）這個事實標準。NoQL 是要取代 MCP，還是要建立在 MCP 之上，Pinecone 的說法是後者：MCP 負責連接資料源，NoQL 負責定義查詢的語義和約束。這兩層能否清楚分開，市場會給出答案。

我的觀察

「卸載」這個歷史框架非常有說服力，但也有過度簡化的風險。CPU 卸載到 GPU 之所以成功，有一個前提：圖形運算的工作負載高度同質化，可以被完美地平行處理。知識檢索的工作負載是否有同等程度的「可專用化」特性，目前還不確定。每個企業的知識結構不同、每個任務的資訊需求不同，「專用知識引擎」的泛化能力是一個需要驗證的假設。

但如果只看經濟邏輯，趨勢方向很難反駁。只要 LLM token 還有成本，任何能減少 token 消耗的專用層都有市場。這跟 1990 年代只要 CPU 還貴，任何能減少 CPU 負擔的協處理器都有市場，是完全一樣的邏輯。真正的問題不是「要不要卸載」，而是「卸載到什麼層、用什麼介面、由誰來主導標準」。這場仗才剛開始。