從文字到全感官:多感官 AI 為何將改變運算的本質

Thinking Machines 的即時世界模型每 200 毫秒就掃描一次你的桌面、語音和鏡頭。如果這成為常態,token 用量將暴增千倍。但 Benioff 認為我們正在浪費大量 token,真正需要的是一個智慧路由層。

從文字到全感官:多感官 AI 為何將改變運算的本質

本文整理自 All-In Podcast 2026 年 5 月播出的第 273 集,來賓為 Salesforce CEO Marc Benioff。

{{< youtube jJRAvZNGUvI >}}


每 200 毫秒查詢一次:AI 不再等你提問

Mira Murati 離開 OpenAI 後創辦的 Thinking Machines,最近展示了一個即時世界模型(real-time world model),讓節目主持人 Jason Calacanis 相當興奮。這個模型的運作方式跟我們熟悉的「一問一答」式 AI 完全不同——它同時監控你的桌面畫面、麥克風收到的聲音、還有 webcam 拍到的影像,每 200 毫秒就把這些多模態資料上傳到兩組不同的模型:一組做即時反應,另一組回顧過去 30 秒的片段做深度思考。

這代表什麼?代表 AI 不再是一個你主動去問問題的工具,而是一個持續理解你正在做什麼、正在想什麼的環境感知系統。它看到你打開一份試算表,就知道你在做什麼分析;它聽到你跟同事的對話,就知道接下來你可能需要什麼資料;它看到你的表情和姿態,就能推測你的情緒狀態。這不再是「大型語言模型」,因為它處理的不只是語言,它是多感官的。

Benioff 用了一個很有畫面感的類比:「我就是一個多感官模型。我有眼睛、耳朵、嘴巴、一些腦子、心臟,還有一些我自己都不太懂的東西,全部在一台生物電腦裡運轉。我不僅僅是一個大型語言模型,雖然我有時候確實話很多。」他的觀點是,純文字的 LLM 不可能帶我們走到 AGI,因為人類的智慧本質上是多感官的。多感官模型是下一個必然的演進方向,但距離真正的 AGI 還有很長的路。

Token 用量即將暴增千倍?

Jason 做了一個簡單的算術。如果一個企業員工一整天都在使用這種即時多感官 AI(不是偶爾問一個問題,而是持續八小時的環境監控和即時回應),token 的消耗量會是現在「一問一答」模式的大約一千倍。他的類比是:Salesforce 今年花 3 億美元買 Anthropic 的 token 做程式開發,如果每個員工都跑這種即時模式,那就不是 3 億而是天文數字了。

但 Benioff 不同意這個推論。他認為我們正處於一個極度浪費的早期階段——所有的查詢,不管多簡單多複雜,全部被丟到同一個大型模型去處理。這就像你只是想洗個手,卻把整間浴室的水都打開了。真正的需求是一個中間的路由層(routing layer),能夠判斷每一個 token 請求的複雜度,然後決定:這個簡單的任務,讓一個小型、便宜的模型處理就好;那個需要深度推理的問題,才送到 Anthropic 或 OpenAI 的頂級模型。

他預測會有一家「火熱的新公司」出現在這個位置,坐在使用者和模型供應商之間,確保你只在真正需要的時候才消耗昂貴的 token。這不是一個小機會,因為它解決的是整個 AI 產業的經濟可行性問題。當 token 使用量暴增千倍,但成本結構沒有對應的效率化,整個商業模式就不可持續。路由層的存在,讓「永遠在線」的多感官 AI 變得經濟上可行。

邊緣 vs. 雲端:兩個人都對

這場關於運算架構的辯論,在 Jason 和 Chamath 之間展開了一個有趣的對峙。Jason 押注的是蘋果和本地運算。他剛拿到一台搭載 M5 晶片、48GB 記憶體的 MacBook,而即將推出的 Mac Studio 會有高達 1TB 的記憶體。他的邏輯是:在本地跑模型,資料不用上傳到任何人的伺服器,隱私問題直接解決。你所有的照片、文件、Email 都可以在本機被索引和分析,不需要信任 OpenAI 或 Google。

Chamath 的反駁很尖銳:你不可能隨時帶著一台五磅重的 MacBook Pro 到處走。2026 年了,如果你的 AI 助理沒有跨裝置的持續性(persistence),你在筆電上的脈絡不能無縫延續到手機上、到家裡的另一台電腦上,這是一個根本性的功能缺陷。他進一步暗示,也許 AI 真正需要的硬體形態根本不是現有的筆電或手機,而是某個我們還沒見過的東西。

Benioff 的態度是:他們倆都對。未來會是邊緣運算和雲端智慧的融合。本地模型處理敏感的個人資料、提供即時回應和隱私保護;雲端模型提供持續性、跨裝置同步和高階推理能力。兩者不是互斥的,而是協同的。這個融合架構,加上中間的路由層來優化成本,才是多感官 AI 真正能規模化部署的技術棧。

硬體形態的下一次革命

Chamath 提出了一個更大膽的問題:如果 AI 的能力已經達到多感官、持續在線的程度,我們現在的硬體形態還有意義嗎?他認為有可能出現一個類似 iPhone 發明那樣的時刻,某個人拿出一個東西,所有人看到就知道「這才是對的」。蘋果花了 40 年打磨的產品線(MacBook、iPhone、iPad),如果核心形態需要改變,這個龐大的組織能跟上嗎?

Jason 接住了這個話題,指出蘋果正在為 AirPods 申請攝影鏡頭的專利。他已經在用一個腳踏板加上 WhisperFlow 語音輸入來工作,不再打字,直接用講的。Chamath 確認他們公司的工程師也是這樣:一個腳踏開關加上語音,手不再碰鍵盤。「hands-on-keyboard 的時代已經結束了。」

如果把這些線索串在一起(AirPods 加鏡頭變成持續的環境感測器、智慧手錶追蹤生理狀態、本地晶片跑即時推理、雲端處理需要深度思考的問題),那個「不是筆電也不是手機」的新形態就開始浮現了。它是穿戴式的、持續運作的、多感官的。它不需要你打開一個 app 來「使用」AI,因為 AI 就在你的感知範圍內,隨時理解你的處境,只在真正有價值的時刻主動介入。

LLM 不是終點,只是起點

Benioff 在討論中做了一個重要的概念區分。他觀察到很多人把「大型語言模型」等同於通往 AGI 的路徑,但他不認同。語言模型的核心機制是「根據前面的文字預測下一個字」,這是一個很強大的能力,但它本質上只處理一種模態:文字。而人類的認知是多模態的,我們透過視覺、聽覺、觸覺、甚至直覺在理解世界。

多感官模型是填補這個差距的下一步,但 Benioff 認為即使有了多感官,我們離真正的 AGI 仍然很遠。不過這不妨礙它在商業上產生巨大的���值:一個能看到你在做什麼、聽到你在聊什麼、理解你的工作脈絡的 AI 助理,就算不是 AGI,也會是有史以來最強大的生產力工具。

對模型公司來說,這意味著又一次策略調整的壓力。Benioff 觀察到,Anthropic 押注在 coding agent 上然後起飛,其他公司現在都在追趕,砍掉影片生成、砍掉社交功能、砍掉性愛機器人,全部轉向 coding agent。但多感官模型可能是再下一次的重新洗牌。誰能最先把視覺、聽覺和語言整合成一個連貫的即時系統,誰就有機會定義下一個世代的 AI 產品形態。比賽遠沒有結束。