AI 技術前沿

語言才是智慧的跳板：NLP 大師 Manning 為何反對楊立昆的世界模型路線

史丹佛 NLP 傳奇教授 Chris Manning 公開質疑楊立昆對語言的輕視。Manning 認為符號表徵與語言是人類智慧的核心，視覺理解離開語言的抽象能力將舉步維艱。這場分歧如何塑造了世界模型新創 Moonlake 的技術路線？

2026 年 5 月 30 日 · 來源： Latent Space: The AI Engineer Podcast

本文整理自 Latent Space Podcast 2026 年 4 月播出的單集。

{{< apple-podcast "tw/podcast/moonlake-causal-world-models-should-be-multimodal-interactive/id1674008350?i=1000758897864" >}}

一位 NLP 傳奇的意外轉向

Chris Manning 的職業生涯幾乎就是自然語言處理（NLP）發展史的縮影。他在史丹佛大學擔任機器學習講座教授超過二十年，主導開發的 GloVe 詞嵌入和 Stanford NLP 工具包被全球研究者使用，2018 年到 2025 年間擔任史丹佛 AI 實驗室（SAIL）主任，親眼見證大型語言模型從學術好奇心變成改變世界的技術力量。但在語言 AI 最輝煌的時刻，Manning 卻把研究重心轉向了視覺與世界模型，共同創辦了世界模型新創公司 Moonlake AI。

問他為什麼，Manning 的回答出人意料地坦率：「電腦視覺其實卡住了。」儘管學術界在視覺領域投入的資源長期遠超語言領域，但視覺理解的進展在物件辨識之後就陷入了停滯。Manning 觀察到，現在市面上的視覺語言模型，真正在做事的其實是語言那一半，「視覺幾乎只是擺設」。這是一個值得深究的反常現象，而 Manning 認為自己找到了原因。

這個原因，直接指向他與另一位 AI 巨擘，Meta 首席 AI 科學家楊立昆（Yann LeCun）之間的根本分歧。

楊立昆的世界觀：視覺才是智慧的本質

楊立昆對 AI 的未來有一套清晰而自洽的理論。他長期主張，智慧的根基是視覺，語言只是人類之間低頻寬的溝通管道，在建構對世界的理解上作用有限。在楊立昆的框架裡，比起每秒傳輸數 MB 資訊的視覺系統，語言就像是用電報在傳遞訊息，頻寬太低，不可能是智慧的核心載體。

這套想法並非空談。楊立昆為此提出了 JEPA（Joint Embedding Predictive Architecture，聯合嵌入預測架構），一個在抽象表徵空間而非像素空間進行預測的架構，試圖繞過語言和符號，直接從視覺資料中學到世界的結構。今年稍早，Meta 成立的 AMI Labs 更代表了對這條路線的大手筆押注。AINEXT 去年也曾報導過楊立昆在 NVIDIA GTC 2025 上的演講，當時他直言「我對 LLM 不再感興趣了」，並勾勒了世界模型取代語言模型的藍圖。

Manning 對楊立昆的尊重溢於言表，他在訪談中稱楊立昆是「摯友」。但在智識層面，他認為楊立昆犯了一個根本性的錯誤。

Manning 的反擊：語言不是通訊工具，它是認知工具

「楊立昆從來沒有真正理解語言的力量，也沒有理解符號表徵的力量，」Manning 在 Latent Space 的訪談中直言。他認為楊立昆是一個「非常視覺導向的思考者」，聲稱自己腦中沒有文字或數學符號，一切都是圖像。Manning 半開玩笑地說：「也許楊立昆真的是這樣思考的，但我肯定不是。」

Manning 的核心論點借用了哲學家丹尼爾．丹尼特（Daniel Dennett）的概念：語言是人類發明的「認知工具」。就像鐵鍬延伸了手臂的力量，語言延伸了大腦的思考能力。人類之所以能在智慧上遠超其他靈長類動物，關鍵不在於我們的視覺系統比黑猩猩更好。事實上，黑猩猩的短期記憶力比人類更強，牠們有出色的視覺系統，能規劃行動，甚至能製造簡單的工具。

真正讓人類「起飛」的是語言的出現。語言提供了一個符號化的知識表徵與推理層級，讓我們能在抽象概念之間建立因果鏈、進行長程規劃、把複雜的知識壓縮成可傳遞的形式。Manning 指出，語言之後還有數學和程式語言，這些都是認知工具，讓人類能處理遠超大腦原始容量的複雜問題。如果 AI 要達到類似人類的世界理解能力，忽略這些認知工具是不智的。

抽象的實際效益：少五個數量級的資料

這場哲學辯論不只是學術趣味。Manning 認為，擁抱符號表徵和語言抽象有一個非常實際的好處：你可以用少得多的資料達到同樣的理解程度。

他的論證是這樣的。語言本身就是一種高度壓縮的世界表徵。當你用「教授」這個詞來描述一個人，你用兩個字就傳遞了大量的語義資訊，包括這個人的職業、可能的社會地位、他可能出現的場景。要從像素層級推導出同樣的語義理解，你需要的資料量可能是文字的十萬倍甚至更多。Manning 估計，如果能善用抽象表徵，可以比純粹從像素出發的方法少用五個數量級的資料。

這不只是「比較便宜」的問題。在運算資源有限的現實中，能用更少的資料更快地取得進展，意味著你能更快迭代、更快發現問題、更快修正方向。Moonlake 的技術路線正是建立在這個判斷之上：他們的多模態推理模型使用符號化的世界表徵來處理因果關係和空間邏輯，只在需要高品質視覺輸出時才動用擴散模型 Reverie。

Physical Intelligence（PI）最近的技術部落格似乎也在印證 Manning 的觀點。PI 發現，要讓機器人維持對世界狀態的長期記憶，最有效的方式竟然是儲存文字描述，而不是像素資料。當連做機器人的團隊都開始依賴語言來理解世界，楊立昆「語言只是低頻雜訊」的論斷就更值得重新檢視了。

多模態推理：閉上眼睛，你也能「看到」世界

Manning 和 Moonlake 執行長 Fan-yun Sun 對世界模型的願景不止於視覺。他們正在訓練一個能跨模態推理的系統，目標是建立一個統合視覺、聽覺、語言的聯合潛在表徵空間。

Sun 用了一個生動的例子：如果你閉上眼睛，聽到一輛車急煞然後滑離你的聲音，你的腦中幾乎會自動「看到」那輛車的軌跡。這種跨感官的推理能力，正是 Moonlake 想讓 AI 具備的。他們的世界模型不只是視覺模型加上語音模型的拼貼，而是要在潛在空間裡真正整合不同模態的資訊，讓模型能用聽覺推論視覺，用語言指導空間理解。

這與目前大多數生成式 AI 影片模型的做法形成鮮明對比。Sora 等模型生成影片後，如果要加上音效，通常是用另一個完全獨立的音訊模型在影片上面疊一層背景音樂或環境音。這些聲音與畫面沒有真正的語義連結，不會因為畫面中有一個物件在移動，就產生對應的方位音效。Manning 指出，Moonlake 利用底層的遊戲引擎作為工具，讓空間音訊自然地從模擬環境中「湧現」，這是純影片生成模型無法做到的事。Sun 觀察到，這種能力其實不需要專門訓練，而是從他們提供給模型的工具和抽象層中自然產生的。就像人類文明的技術發展一樣，「這些東西像樂高積木一樣層層堆疊，組合在一起就會產生我們預想不到的能力。」

我的觀察：路線之爭比我們以為的更重要

在 AI 社群裡，「結構 vs. 規模」的辯論常常被簡化成「舊派學院派 vs. 新派工程派」的對立。但 Manning 的論點提醒我們，這場辯論的本質其實是：AI 應該用什麼樣的表徵來理解世界？

楊立昆認為答案在視覺的潛在空間裡，語言只是副產品。Manning 認為語言和符號表徵本身就是智慧的核心元件，不能被繞過。這兩條路線會導向非常不同的技術決策、非常不同的產品，以及非常不同的資源配置。

Moonlake 的路線其實兼採了兩者的元素。他們使用符號化的推理模型來處理世界邏輯，同時用擴散模型來處理視覺輸出，某種程度上是在說：Manning 是對的，但楊立昆也不完全錯，只是兩種表徵各自適合處理不同的問題。邊界在哪裡，是 Moonlake 內部持續在調整的課題。Sun 透露，他們會根據客戶需求和新的研究發現，不斷移動「符號先驗」和「像素先驗」之間的分界線。

這場辯論沒有標準答案，但它正在塑造 AI 下一個十年的走向。而 Manning 從 NLP 投身世界模型這件事本身，或許就是最好的訊號：當語言領域最懂語言力量的人開始跨界，他帶來的視角可能恰恰是這個領域最缺乏的。