End-to-End 不夠用:Waymo 揭示自駕 AI 的真正挑戰

Waymo 共同執行長多爾戈夫指出,基本款的端對端模型無法支撐安全的全自駕。Waymo Foundation Model 在端對端架構之上加入結構化中間表示法,實現運行時驗證與閉環訓練,才是通往超人類安全的關鍵。

End-to-End 不夠用:Waymo 揭示自駕 AI 的真正挑戰

本文整理自 Sequoia Capital「Training Data」2026 年 5 月播出的單集。

{{< youtube I_0Kuf6Aa2c >}}

{{< apple-podcast "tw/podcast/waymos-dmitri-dolgov-20-million-rides-and-the-road/id1750736528?i=1000766110662" >}}

封面圖


做到 90% 和做到 99.999% 是兩回事

在 AI 社群裡,「端對端」(end-to-end)模型幾乎已經成為一種信仰。把原始感測器資料丟進去,讓模型自己學出最好的表示法,直接輸出行動決策。在自然語言處理和電腦視覺領域,這套方法創造了驚人的突破。但 Waymo 共同執行長德米特里.多爾戈夫(Dmitri Dolgov)在紅杉資本(Sequoia Capital)AI Ascent 2026 的訪談中,提出了一個被很多人忽略的區分:做到 90% 的方法,跟做到後面那些「N 個 9」所需要的方法,根本是兩回事。

多爾戈夫的觀點來自近二十年的實戰經驗。自 2009 年加入 Google 自駕車專案以來,他帶領團隊從 DARPA 挑戰賽走到了今天超過 2 億英里的完全自駕里程、超過 2,000 萬趟載客。Waymo 的自駕系統在嚴重傷害碰撞率上比人類駕駛安全 13 倍。這些數字不是靠基本款的端對端模型堆出來的。

Waymo Foundation Model:駕駛、模擬、評判

在 Waymo 的 AI 生態系中,核心是一個被稱為「Waymo Foundation Model」的基礎模型。這個模型同時驅動三個支柱:駕駛系統(Driver)、模擬器(Simulator)和評判系統(Critic)。三者各自是不同的任務,但共用同一個基礎模型的能力。

多爾戈夫將這個模型描述為一種「多模態世界行動語言模型」(multimodal world-action-language model)。先拆解「多模態」:它不只處理影像或影片,還要同時整合光達(LiDAR)和雷達的資料。「世界行動模型」的部分要求它對三維空間有精確的理解,涵蓋物理定律、動態行為,以及車輛、行人、自行車騎士等所有用路人的行為模式。Waymo 的車不是被動的觀察者,它是這個世界的主動參與者,所以模型還必須深刻理解什麼叫做「好的駕駛」,以及自身行動如何影響周遭所有人的行為。

最後一塊拼圖是「語言」。透過與視覺語言模型(VLM)的對齊,Waymo 的基礎模型可以借用通用世界知識來理解駕駛場景中的語義和社交面向。比如說,判斷一個站在路邊停車場旁的人是正要開車離開還是要過馬路,需要的不只是物理預測,還有社交情境的推理。這種能力在傳統的純感測器架構中是很難實現的。

End-to-End「然後呢?」

多爾戈夫直言,Waymo Foundation Model 確實是一個端對端模型,從感測器到決策的資料流是連貫的。端對端架構有一個非常重要的優勢:它讓系統在感知(perception)和規劃(planning)之間學出豐富的中間表示法,而不是依賴人工設計那些介面。這種學習出來的表示法,遠比手動工程設計來得強大。

但他接著點出了整場對話中最關鍵的一句話:「真正的問題不是 end-to-end 還是其他方案,而是 end-to-end『然後呢?』」

如果目標只是做一個駕駛輔助系統、一個展示原型、或是一個小規模部署,基本款的端對端模型可能夠用。但如果要做到完全自駕、超人類等級的安全、並且在數百萬英里的規模上運行,vanilla end-to-end 就遠遠不足。Waymo 的做法是在學習出的表示法之上,加入「結構化具體化中間表示」(structured materialized intermediate representations)。這個看似拗口的術語,解決了幾個非常具體的問題。

首先,它讓系統在車輛實際上路時可以做額外的運行時驗證(runtime validation),而不是完全信任模型的輸出。換句話說,即使端對端模型的主要決策看起來合理,系統仍然有獨立的機制去交叉檢查。其次,這些結構化表示為訓練提供了更豐富的工具:閉環評估、閉環訓練,以及強化學習所需的精細獎勵函數。在純粹的端對端系統中,這些要嘛極難做到,要嘛根本不實際。

超人感知:公車底下的那雙腳

多爾戈夫分享了一個讓他自己都感到驚訝的案例,用來說明 Waymo 的 AI 系統如何從極度不完整的資訊中做出正確判斷。

在舊金山的一個十字路口,一輛公車橫停在交叉口,部分遮擋了 Waymo 車輛的視線。綠燈亮起,車子開始前進,但隨即進入防禦性模式。車上沒有駕駛可以看到公車另一側發生了什麼,攝影機透過反光的車窗也看不穿,雷達同樣無法穿透金屬車體。然而,Waymo 的光達從公車底部的縫隙捕捉到了一組極微弱的反射訊號,那是一個行人的腳在移動。

系統從這些稀疏的回波中推斷出三件事:有一個行人存在、這個人正在移動、他即將從公車後方走出來。車輛據此減速並繞行,所有人安然無恙。「Waymo 的駕駛系統再厲害,也看不穿固體物件,」多爾戈夫說。「但它找到了另一種方法。」

這個例子說明的不只是感測器的能力。真正的重點在於整套 AI 系統如何在資訊極度殘缺的情況下,結合物理世界的理解、動態行為的預測、以及安全邊際的計算,做出正確的決策。這種能力需要的不只是一個大型端對端模型,還需要對世界如何運作有結構化的、可驗證的理解。

自駕車對整個 AI 產業的啟示

每一次 AI 技術的突破,都會有人拿來宣稱自駕車問題即將解決。卷積神經網路如此,Transformer 如此,大型語言模型也是如此。但多爾戈夫二十年的經驗反覆驗證了同一件事:每一次突破都「重塑了曲線的前段」,但不會改變後面那條漫長的尾巴。

這個觀察其實不只適用於自駕車。任何需要在真實世界中達到極高可靠度的 AI 應用,從醫療診斷到工業自動化,都會遇到同樣的問題:做到令人印象深刻的展示是一回事,做到可以大規模部署並且安全可靠是另一回事。Waymo 選擇在端對端的基礎上加入結構化的安全層,這個架構思維值得其他正在從「展示」走向「產品」的 AI 團隊認真參考。用多爾戈夫的話來說:你可以很快做到前 90%,但通往後面那些「9」的路,從第一天就必須用完全不同的方式來建造。