AI 技術前沿

從文字到全感官：多感官 AI 為何將改變運算的本質

Thinking Machines 的即時世界模型每 200 毫秒就掃描一次你的桌面、語音和鏡頭。如果這成為常態，token 用量將暴增千倍。但 Benioff 認為我們正在浪費大量 token，真正需要的是一個智慧路由層。

2026 年 5 月 17 日 · 來源： All-In Podcast

本文整理自 All-In Podcast 2026 年 5 月播出的第 273 集，來賓為 Salesforce CEO Marc Benioff。

每 200 毫秒查詢一次：AI 不再等你提問

Mira Murati 離開 OpenAI 後創辦的 Thinking Machines，最近展示了一個即時世界模型（real-time world model），讓節目主持人 Jason Calacanis 相當興奮。這個模型的運作方式跟我們熟悉的「一問一答」式 AI 完全不同——它同時監控你的桌面畫面、麥克風收到的聲音、還有 webcam 拍到的影像，每 200 毫秒就把這些多模態資料上傳到兩組不同的模型：一組做即時反應，另一組回顧過去 30 秒的片段做深度思考。

這代表什麼？代表 AI 不再是一個你主動去問問題的工具，而是一個持續理解你正在做什麼、正在想什麼的環境感知系統。它看到你打開一份試算表，就知道你在做什麼分析；它聽到你跟同事的對話，就知道接下來你可能需要什麼資料；它看到你的表情和姿態，就能推測你的情緒狀態。這不再是「大型語言模型」，因為它處理的不只是語言，它是多感官的。

Benioff 用了一個很有畫面感的類比：「我就是一個多感官模型。我有眼睛、耳朵、嘴巴、一些腦子、心臟，還有一些我自己都不太懂的東西，全部在一台生物電腦裡運轉。我不僅僅是一個大型語言模型，雖然我有時候確實話很多。」他的觀點是，純文字的 LLM 不可能帶我們走到 AGI，因為人類的智慧本質上是多感官的。多感官模型是下一個必然的演進方向，但距離真正的 AGI 還有很長的路。

Token 用量即將暴增千倍？

Jason 做了一個簡單的算術。如果一個企業員工一整天都在使用這種即時多感官 AI（不是偶爾問一個問題，而是持續八小時的環境監控和即時回應），token 的消耗量會是現在「一問一答」模式的大約一千倍。他的類比是：Salesforce 今年花 3 億美元買 Anthropic 的 token 做程式開發，如果每個員工都跑這種即時模式，那就不是 3 億而是天文數字了。

但 Benioff 不同意這個推論。他認為我們正處於一個極度浪費的早期階段——所有的查詢，不管多簡單多複雜，全部被丟到同一個大型模型去處理。這就像你只是想洗個手，卻把整間浴室的水都打開了。真正的需求是一個中間的路由層（routing layer），能夠判斷每一個 token 請求的複雜度，然後決定：這個簡單的任務，讓一個小型、便宜的模型處理就好；那個需要深度推理的問題，才送到 Anthropic 或 OpenAI 的頂級模型。

他預測會有一家「火熱的新公司」出現在這個位置，坐在使用者和模型供應商之間，確保你只在真正需要的時候才消耗昂貴的 token。這不是一個小機會，因為它解決的是整個 AI 產業的經濟可行性問題。當 token 使用量暴增千倍，但成本結構沒有對應的效率化，整個商業模式就不可持續。路由層的存在，讓「永遠在線」的多感官 AI 變得經濟上可行。

邊緣 vs. 雲端：兩個人都對

這場關於運算架構的辯論，在 Jason 和 Chamath 之間展開了一個有趣的對峙。Jason 押注的是蘋果和本地運算。他剛拿到一台搭載 M5 晶片、48GB 記憶體的 MacBook，而即將推出的 Mac Studio 會有高達 1TB 的記憶體。他的邏輯是：在本地跑模型，資料不用上傳到任何人的伺服器，隱私問題直接解決。你所有的照片、文件、Email 都可以在本機被索引和分析，不需要信任 OpenAI 或 Google。

Chamath 的反駁很尖銳：你不可能隨時帶著一台五磅重的 MacBook Pro 到處走。2026 年了，如果你的 AI 助理沒有跨裝置的持續性（persistence），你在筆電上的脈絡不能無縫延續到手機上、到家裡的另一台電腦上，這是一個根本性的功能缺陷。他進一步暗示，也許 AI 真正需要的硬體形態根本不是現有的筆電或手機，而是某個我們還沒見過的東西。

Benioff 的態度是：他們倆都對。未來會是邊緣運算和雲端智慧的融合。本地模型處理敏感的個人資料、提供即時回應和隱私保護；雲端模型提供持續性、跨裝置同步和高階推理能力。兩者不是互斥的，而是協同的。這個融合架構，加上中間的路由層來優化成本，才是多感官 AI 真正能規模化部署的技術棧。

硬體形態的下一次革命

Chamath 提出了一個更大膽的問題：如果 AI 的能力已經達到多感官、持續在線的程度，我們現在的硬體形態還有意義嗎？他認為有可能出現一個類似 iPhone 發明那樣的時刻，某個人拿出一個東西，所有人看到就知道「這才是對的」。蘋果花了 40 年打磨的產品線（MacBook、iPhone、iPad），如果核心形態需要改變，這個龐大的組織能跟上嗎？

Jason 接住了這個話題，指出蘋果正在為 AirPods 申請攝影鏡頭的專利。他已經在用一個腳踏板加上 WhisperFlow 語音輸入來工作，不再打字，直接用講的。Chamath 確認他們公司的工程師也是這樣：一個腳踏開關加上語音，手不再碰鍵盤。「hands-on-keyboard 的時代已經結束了。」

如果把這些線索串在一起（AirPods 加鏡頭變成持續的環境感測器、智慧手錶追蹤生理狀態、本地晶片跑即時推理、雲端處理需要深度思考的問題），那個「不是筆電也不是手機」的新形態就開始浮現了。它是穿戴式的、持續運作的、多感官的。它不需要你打開一個 app 來「使用」AI，因為 AI 就在你的感知範圍內，隨時理解你的處境，只在真正有價值的時刻主動介入。

LLM 不是終點，只是起點

Benioff 在討論中做了一個重要的概念區分。他觀察到很多人把「大型語言模型」等同於通往 AGI 的路徑，但他不認同。語言模型的核心機制是「根據前面的文字預測下一個字」，這是一個很強大的能力，但它本質上只處理一種模態：文字。而人類的認知是多模態的，我們透過視覺、聽覺、觸覺、甚至直覺在理解世界。

多感官模型是填補這個差距的下一步，但 Benioff 認為即使有了多感官，我們離真正的 AGI 仍然很遠。不過這不妨礙它在商業上產生巨大的��值：一個能看到你在做什麼、聽到你在聊什麼、理解你的工作脈絡的 AI 助理，就算不是 AGI，也會是有史以來最強大的生產力工具。

對模型公司來說，這意味著又一次策略調整的壓力。Benioff 觀察到，Anthropic 押注在 coding agent 上然後起飛，其他公司現在都在追趕，砍掉影片生成、砍掉社交功能、砍掉性愛機器人，全部轉向 coding agent。但多感官模型可能是再下一次的重新洗牌。誰能最先把視覺、聽覺和語言整合成一個連貫的即時系統，誰就有機會定義下一個世代的 AI 產品形態。比賽遠沒有結束。