AI 基礎設施正在重演半導體的老劇本:把專用功能從通用處理器卸載出去
CPU 卸載 I/O 給專用晶片、卸載圖形給 GPU、卸載網路給 NIC。現在 LLM 正在經歷同樣的事:把知識檢索卸載給專用的知識引擎。這個模式每次出現,都催生出價值數百億美元的新產業。

本文整理自《AI + a16z》2026 年 5 月播出的單集。

一個反覆上演的劇本
運算史上有一個不斷重複的模式:當某種特定功能在通用處理器上執行得太昂貴,產業就會把它卸載到專用的硬體或系統上。這個模式在過去半世紀至少重演了四、五次,每一次都催生出龐大的新產業。Pinecone 執行長阿什.阿舒托什(Ash Ashutosh)和 a16z 合夥人彼得.乃文(Peter Levine)在最近一集 Podcast 中,把這個歷史框架套到當前的 AI 基礎設施上,論述 LLM 正在經歷相同的卸載過程。
最經典的例子是 I/O 處理。早期電腦的所有輸入輸出操作都由 CPU 直接處理,包括磁碟讀寫、印表機控制、鍵盤輸入。當這些操作佔用太多 CPU 週期時,產業的回應是設計專用的 I/O 控制器和 DMA(直接記憶體存取)晶片,把這些重複性高但不需要複雜運算的任務從 CPU 手中接過來。CPU 釋放出來的算力可以專注在真正需要通用運算能力的任務上。
圖形處理走了完全相同的路。1990 年代以前,所有的圖形渲染都由 CPU 負責。當 3D 遊戲和圖形介面的需求爆發時,CPU 根本忙不過來。NVIDIA 等公司的 GPU 就是在這個背景下誕生的:把高度平行化的圖形計算從 CPU 卸載到專用晶片。後來 GPU 又因為同樣的平行運算特性,被拿來做深度學習訓練,這是另一個意料之外的卸載故事。網路處理也經歷了類似的演化,從 CPU 軟體處理封包,到專用網路卡(NIC)、再到智慧型網路卡(SmartNIC)和 DPU(Data Processing Unit)。
LLM 就是新一代的「超載 CPU」
把這個框架套到現在的 AI 基礎設施,LLM 就是那個被迫做太多事的通用處理器。模型本身的核心能力是推理:理解語境、做出判斷、產生回應。但在現實的 Agent 應用中,LLM 有 85% 的時間花在知識檢索上,只有 15% 在做真正的推理。這就像 1980 年代的 CPU 花大量週期在處理磁碟 I/O,明明它的核心價值是做運算。
問題的根源在於:目前的 AI 應用架構把知識檢索當成「模型的一部分」來處理。Agent 透過 LLM 發出查詢、解讀結果、再發出更多查詢,整個檢索循環都在消耗模型的推理能力和 token 預算。這就像讓 CPU 直接管理每一個磁碟的讀寫頭位置,而不是把這件事交給磁碟控制器。技術上可以做到,但極度浪費資源。
阿舒托什提到一個具體數字:他們的內部 Agent 應用在傳統架構下,每次查詢消耗約 40,000 個 token。把知識檢索卸載到專用的知識引擎後,同樣的查詢只需要 2,000 個 token。這 95% 的降幅,性質上跟把圖形渲染從 CPU 卸載到 GPU 後的效能提升是一樣的:不是因為你的「CPU」(LLM)變強了,而是因為你終於不再逼它做不擅長的事。
卸載的經濟邏輯
每一次卸載浪潮背後的經濟邏輯都是一樣的:通用處理器的單位成本太高,不值得拿來做可以被專用化的工作。GPU 取代 CPU 做圖形運算,靠的是用便宜的平行核心做重複運算,單位成本遠低於通用 CPU。知識引擎取代 LLM 做知識檢索的邏輯完全相同:預先編譯好的知識結構可以直接回應查詢,省去讓模型反覆推理的昂貴代價。重點從來都不是「誰比較聰明」,而是「誰做這件事比較便宜」。
乃文在對談中提到了一個觀察:如果你拉遠來看,我們正處在 AI 基礎設施優化的極早期階段。就像 CPU 卸載 I/O、卸載圖形、卸載網路的過程催生了整個半導體產業的多個子領域,LLM 卸載各種專用功能的過程也會催生大量新公司和新產業。知識檢索只是第一個被明確辨識出來的卸載目標,接下來可能還有記憶管理、工具呼叫最佳化、多 Agent 協調等功能也會經歷類似的專用化過程。
從成本結構來看,這個趨勢幾乎是不可逆的。LLM 推理的定價是按 token 計費的,而且頂尖模型的 token 價格短期內不會降到零。任何能減少 token 消耗的技術,在經濟上都有立即的吸引力。Pinecone 聲稱 Nexus 能減少 40% 到 90% 的 token 使用量,如果這個數字成立,對於大量使用 Agent 的企業來說,投資報酬率是立即且可量化的。
每次卸載都需要新的介面標準
歷史上每一次功能卸載,都伴隨著新的介面標準的誕生。CPU 和 I/O 設備之間有了 PCI 匯流排。CPU 和 GPU 之間有了 PCIe、CUDA。應用程式和資料庫之間有了 SQL。API 之間有了 REST、GraphQL。這些標準的功能是讓「主處理器」和「專用處理器」能有效溝通,而不需要每次都從零開始設計介面。
在 LLM 和知識引擎之間,Pinecone 提出的介面標準是 NoQL(Knowledge Query Language)。它讓 Agent 能用結構化的方式告訴知識引擎:我要什麼資訊、我的時間預算是多少、我能存取哪些資料。這個定位跟 SQL 的歷史角色確實類似:在 SQL 出現之前,每個應用程式都要自己寫資料存取邏輯;SQL 出現後,這個介面被標準化了,資料庫產業才真正爆發。
不過歷史也告訴我們,介面標準的建立往往是漫長且混亂的過程。PCI 打敗了 ISA、EISA、MCA 等多個競爭標準。SQL 花了十幾年才真正統一市場。在 Agent 和知識系統之間,目前已經有 MCP(Model Context Protocol)這個事實標準。NoQL 是要取代 MCP,還是要建立在 MCP 之上,Pinecone 的說法是後者:MCP 負責連接資料源,NoQL 負責定義查詢的語義和約束。這兩層能否清楚分開,市場會給出答案。
我的觀察
「卸載」這個歷史框架非常有說服力,但也有過度簡化的風險。CPU 卸載到 GPU 之所以成功,有一個前提:圖形運算的工作負載高度同質化,可以被完美地平行處理。知識檢索的工作負載是否有同等程度的「可專用化」特性,目前還不確定。每個企業的知識結構不同、每個任務的資訊需求不同,「專用知識引擎」的泛化能力是一個需要驗證的假設。
但如果只看經濟邏輯,趨勢方向很難反駁。只要 LLM token 還有成本,任何能減少 token 消耗的專用層都有市場。這跟 1990 年代只要 CPU 還貴,任何能減少 CPU 負擔的協處理器都有市場,是完全一樣的邏輯。真正的問題不是「要不要卸載」,而是「卸載到什麼層、用什麼介面、由誰來主導標準」。這場仗才剛開始。