LLM 之後的下一座聖杯:為什麼 Nexar 的行車記錄器資料正在訓練 AI 理解物理世界

當 LLM 把網路上的文字資料刮乾了,下一個 AI 前沿是什麼?Nexar 創辦人 Eran Shir 認為答案是世界模型——不是理解文字,而是理解物理現實的 AI。他把 Yann LeCun 請進董事會,用行車記錄器的真實碰撞資料訓練出了能泛化到工業、農業、國防應用的物理 AI 模型。

LLM 之後的下一座聖杯:為什麼 Nexar 的行車記錄器資料正在訓練 AI 理解物理世界

本文整理自 Aleph 的 Invested Podcast 2026 年 2 月播出的單集。

{{< youtube T1bawZThwHk >}}


你的兒子站在足球門前當守門員。對方射門,球飛過來。他跳起來,接住了。在那個瞬間,他的大腦沒有計算牛頓運動方程式,沒有解微分方程,但他就是「知道」球會往哪裡飛。這種不需要計算就能理解物理世界的直覺能力,就是 AI 研究者想要建造的「世界模型」。

Nexar 創辦人 Eran Shir 在 Aleph 的 Invested Podcast 上用這個比喻解釋了一個他認為比 LLM 更重要的 AI 前沿。而他的公司,一家賣行車記錄器的以色列新創,正坐在這個前沿的核心位置。

LLM、VLM、世界模型:三個不同的東西

要理解為什麼 Nexar 的資料突然變得如此重要,需要先搞清楚三個概念之間的區別。

大型語言模型(LLM)處理的是文字。它們在海量的網路文字上訓練,學會了語言的模式、邏輯推理、程式碼生成。視覺語言模型(VLM)加入了圖像理解能力,能看懂照片和影片中的內容。但這兩者本質上都是在「數位空間」運作——它們處理的是人類產生的符號和影像,不是物理世界本身。

世界模型是完全不同的東西。它不是在理解文字或圖像,而是在理解物理現實——物體如何移動、碰撞、互動,重力如何作用,一個紙箱從卡車上飛出來會以什麼軌跡飄向你的擋風玻璃。這種理解不能從網路文字中學到,因為網路上沒有足夠的物理世界互動資料。你需要的是真實世界的影片,而且不是任何影片,而是那些極端罕見的邊緣案例——碰撞、險些碰撞、飛行中的車輛、突然衝出的動物。

Shir 把這個區分看得非常重要。他在 2026 年 1 月把 Yann LeCun 請進了 Nexar 的董事會。LeCun 是 Meta 前首席 AI 科學家,在 2025 年 11 月離開 Meta 創辦 AMI Labs,他是 AI 領域中最堅定的「世界模型」倡導者,多次公開表示 LLM 不是通往人類水準 AI 的正確路徑。把他拉進董事會,是 Nexar 向市場發出的策略信號:我們押注世界模型,不是語言模型。

為什麼 NVIDIA 需要 Nexar 的碰撞影片

這個押注不只是理論層面的。它已經在產生商業價值。

2025 年 1 月的 CES 大會上,NVIDIA 執行長黃仁勳在長達 90 分鐘的主題演講中發布了 Cosmos 世界基礎模型平台。Cosmos 的目標是為所有 Physical AI 應用——自駕車、機器人、無人機——提供能理解物理世界的基礎模型。但在 Cosmos 2.0 亮相之前,有一個 NVIDIA 不太願意大聲說的故事。

Cosmos 1.0 在碰撞和高動態事件的表現很差。你可以去下載 Cosmos 1.0 來玩,會發現它在正常駕駛場景下表現還行,但一旦遇到碰撞、急煞、物體飛入鏡頭這種高動態情境,模型就崩潰了。原因很簡單:訓練資料裡沒有足夠的這類事件。正常的駕駛影片裡,碰撞可能每幾百萬英里才出現一次,光靠一般的訓練資料集根本湊不齊。

Nexar 主動做了一份分析報告,展示 Cosmos 1.0 在碰撞場景上有多糟糕。NVIDIA 的工程師自己也知道這個問題,但他們手上沒有足夠的真實碰撞資料來解決它。於是雙方合作,Nexar 提供了大量的長尾事件影片來訓練 Cosmos 的量產版本。黃仁勳在 CES 上展示 Cosmos 2.0 在碰撞預測上的優異表現——比 Google 的模型更好——背後很大一部分功勞來自 Nexar 的資料。

這驗證了一個重要的論點:即使你是 NVIDIA,擁有全世界最強的運算能力和最聰明的工程師,如果你手上沒有真實世界的長尾事件資料,你的世界模型就是做不好。資料的稀缺性,特別是極端事件資料的稀缺性,是花錢買不到的。你只能用時間和規模去累積。

BADAS:用行車記錄器資料建的世界模型

NVIDIA 的合作驗證了市場需求,但 Nexar 不想只當資料供應商。他們決定自己建世界模型。

2025 年 10 月,Nexar 發布了 BADAS(Beyond ADAS),一個用超過 100 億英里真實駕駛資料和 6,000 萬個標註邊緣案例訓練的基礎模型。BADAS 能在碰撞發生前平均 4.9 秒預測到碰撞,這個數字在當前的先進駕駛輔助系統(ADAS)中是頂尖的。

但更讓 Shir 驚訝的不是模型的效能,而是從發布到第一個付費客戶只花了三週。客戶的需求是即時預測,但 BADAS 剛上線時每次預測需要 2.5 秒——離即時運算的 40 毫秒差了六十幾倍。團隊本來在規畫優化路線圖,但一個研究員用 Claude Code 花了幾天就把問題解決了。AI 逐層分析了基於 Meta VJEPA 架構的神經網路,找到了一個 Meta 原始程式碼中的 bug,把某些運算從 CPU 切換到 GPU,再加上一系列其他優化,直接把延遲壓到了可部署的水準。Shir 說這個過程本來可能要花資深研究員好幾週,但在 agent 化工作流程下,幾天就搞定了。

從馬路泛化到太空船:VJEPA 的魔力

BADAS 最讓人意外的特性不是它在駕駛場景上的表現,而是它的泛化能力。

Nexar 團隊開始把模型拿來測試各種奇怪的東西。先是 Grand Theft Auto 的遊戲畫面——一個完全虛擬的環境,場景、光線、物體質感都跟真實世界不同。模型依然能準確預測碰撞。然後他們試了 ASCII 藝術風格的影片,解析度極低,畫面只有文字字元組成的粗略輪廓。還是能跑。接著是太空船、龍、森林裡的馬車。全部都能泛化。

這種泛化能力的來源是 VJEPA 架構。VJEPA 全名是 Video Joint Embedding Predictive Architecture,由 Yann LeCun 在 Meta 的團隊開發。跟傳統的生成式模型不同,VJEPA 不在像素層級工作。它先把影片轉換成一種壓縮的「潛在空間」(latent space)表徵,然後在這個抽象空間裡做預測。因為它學到的不是特定像素的排列方式,而是物體運動和互動的底層物理規律,所以它不在乎畫面長什麼樣——它關心的是物理關係。

Shir 解釋這種能力時,講了一個他自己在十年前也沒預見到的發現。如果你想收集大量的物理互動資料來訓練 AI 理解物理世界,最有效的方式不是在火箭上裝攝影機(取樣面太窄),也不是在工廠裡裝攝影機(場景太單一),而是在全球數十萬台車的擋風玻璃上裝行車記錄器。公共道路是物理事件密度最高的場景之一:車輛碰撞、物體飛行、動物出沒、極端天氣、施工障礙。這些事件涵蓋了廣泛的物理互動模式,而這些模式能泛化到幾乎任何需要理解物理世界的 AI 應用。

超越道路:工業、農業、國防

CEO Zach Greenberger 把這個泛化能力連結到了商業策略。Nexar 最初的定位是幫助自駕車公司加速達成全自動駕駛,但世界模型的泛化能力打開了遠比自駕車更大的市場。

任何需要理解物理互動的 AI 應用,理論上都能受惠於 Nexar 的模型。工業場景需要預測機械臂和人類工人之間的碰撞風險。農業機器人需要在不確定的地形上判斷物體的運動軌跡。國防應用需要在高速、高動態的環境中預測物體行為。這些場景看起來跟道路駕駛完全不同,但在物理互動的層面上,它們遵循的是相同的規律。

Greenberger 提出了一個更遠的願景:當機器人、自駕車和其他 Physical AI 系統開始跟人類共存,光是解決物理碰撞的問題是不夠的。一個人形機器人可以被訓練到不會撞到人,但如果它的動作不夠「像人」,人類還是會覺得不對勁。解決了物理問題之後,下一步是讓這些機器的行為更自然、更符合人類的直覺期待。而這同樣需要大量真實世界的人類行為資料來訓練。

網路刮乾了,真實世界還沒開始

整場對話中,有一個論點反覆出現,值得仔細思考。

過去四五年,從 ChatGPT 開始的 AI 革命建立在一個基礎上:網路上有海量的數位資料可以用來訓練模型。但這個資料來源正在枯竭。Shir 的說法是「網路已經被刮乾了」。你能找到的文字、圖片、程式碼,各大 AI 實驗室都已經用過了。在數位資料上,競爭的核心轉向了模型架構和推理能力的改進。

但真實世界的物理資料幾乎還沒被開發。全球每天有數十億次的物理互動在發生——車輛行駛、人們走路、機器運轉——但只有極少數被系統性地記錄下來。Tesla 用車載攝影機記錄了很多,Nexar 用行車記錄器記錄了一些,但跟理論上可收集的資料量相比,這只是冰山一角。

這就是為什麼 Nexar 和 Tesla 被視為坐在「AI 時代最有價值的資產」上。他們不只是有資料,而是有十年累積的、不可複製的、包含大量長尾事件的真實世界物理資料。今天你想從零開始建立這樣的資料庫,光是部署硬體和等待足夠多的罕見事件自然發生,就需要好幾年。

我的觀察

Nexar 的世界模型故事,其實揭示了 AI 產業一個正在發生的典範轉移:從理解語言到理解物理世界。

LLM 的成功讓很多人以為 AI 的發展路徑就是不斷加大語言模型的規模。但 Yann LeCun 離開 Meta、創辦 AMI Labs、加入 Nexar 董事會,這一連串動作傳遞的訊號很清楚:至少一部分頂尖的 AI 研究者認為,語言模型這條路不會通往真正的通用 AI。你可以讓 LLM 寫出完美的物理學論文,但它不「理解」物理——它只是在操弄符號。而一個需要在真實世界中運作的 AI 系統,不能只會操弄符號。

Nexar 的 BADAS 模型能從道路資料泛化到太空船和 GTA 遊戲,這是一個非常有意思的訊號。它暗示著在潛在空間學到的物理規律具有高度的普適性。如果這個方向持續被驗證,那真實世界的物理資料可能會成為下一波 AI 軍備競賽的核心資源——就像網路文字資料是上一波的核心資源一樣。

但我也想指出一個這場訪談沒有深入討論的張力。Nexar 的資料主要來自道路場景,雖然涵蓋了豐富的物理互動,但畢竟是一個特定的領域。從道路泛化到工業、農業、國防,中間還有多少 domain gap 需要跨越?在 GTA 和 ASCII 影片上跑得動是一回事,在真實工廠的複雜環境裡精準預測碰撞是另一回事。泛化能力是一個光譜,不是一個開關。Nexar 展示的早期結果很鼓舞人,但從概念驗證到商業化部署之間,通常還有很長的路要走。

最後一個觀察:Nexar 的經驗暗示了一個更大的命題。在 AI 的下一個十年裡,最有價值的公司可能不是建造最大模型的公司,而是擁有最獨特真實世界資料的公司。模型架構可以被開源、被複製。運算能力可以用錢買到。但十年累積的、包含數千萬個真實碰撞事件的物理世界資料庫,沒有捷徑可以取得。如果世界模型真的是 AI 的下一座聖杯,那資料的壁壘會比我們在 LLM 時代看到的還要高。