瓶頸不是模型不夠聰明:Applied Intuition 要做每一台移動機器的 Android
當 AI 產業聚焦大型語言模型的軍備競賽,Applied Intuition 兩位創辦人在 Latent Space Podcast 拆解了 Physical AI 的真正瓶頸:不是模型智慧不夠,而是如何把 AI 部署到卡車、農機和戰場上的每一台實體機器。他們的解法是打造移動機器的 Android。

本文整理自 Latent Space Podcast 2026 年 4 月播出的單集。
{{< youtube rv23_KcHt4s >}}
{{< apple-podcast "tw/podcast/physical-ai-that-moves-the-world-qasar-younis-peter/id1674008350?i=1000763938347" >}}
五十幾種作業系統的噩夢
Applied Intuition 技術長路德維希(Peter Ludwig)在 Latent Space Podcast 上講了一段往事。他在 Google 的 Android 團隊待過好幾年,很清楚 Google 當初為什麼要做 Android。那時候 Google 想讓自家產品跑在各種手機上,團隊買了五十多款手機回來測試,結果發現上面跑著五十幾種不同的作業系統。要讓一個 app 在每一台裝置上都跑得好,幾乎不可能。最後的解法是:與其一個一個去適配,不如打造一套夠好的作業系統,讓所有手機廠商都願意採用。
路德維希說,今天的實體移動機器,從卡車到農機到礦場設備,正處於 Android 出現之前的那個狀態。每家製造商的韌體和軟體各自為政,碎片化的程度比當年的手機市場更嚴重。你想在一台聯合收割機上部署端到端的自駕模型?先搞定它那套用了二十年的手工編碼控制系統再說。Applied Intuition 做的事,就是先把作業系統這一層統一起來,讓現代 AI 應用有一個可靠的平台可以跑。
這家公司目前估值 150 億美元,工程師超過一千人,佔全公司人數的 83%。全球前二十大非中國車廠中有十八家是客戶,美國國防部也是。共同創辦人暨執行長尤尼斯(Qasar Younis)念的是凱特林大學(前身為通用汽車技術學院),在 GM 和博世做過工程師,後來當了 Y Combinator 的營運長。路德維希則是密西根大學 CS 碩士,在 Google 做了五年 Android Automotive 和 Google Maps。兩個人都不是從 AI 實驗室出來的,而是從「把軟體塞進實體機器」這件事的第一線走過來的。
螢幕上出錯叫尷尬,機器上出錯叫事故
尤尼斯在節目開頭就畫了一條很清楚的線。過去三年 AI 產業的焦點幾乎全在大型語言模型上,所有東西都活在螢幕裡。Applied Intuition 做的事完全不同,他們把智慧部署到「沒有螢幕的東西」上面,而且是在安全攸關的環境裡。你問 ChatGPT 「幫我介紹一下這兩位 Podcast 主持人」,答錯了頂多尷尬。但他們此刻正在日本營運 L4 等級的無人卡車,容不下任何錯誤。
這個差異不只是程度問題,而是本質上的不同。在螢幕上的 AI,出錯的代價是使用者翻白眼。在實體機器上,出錯的代價可能是人命。路德維希解釋,你不能用 Microsoft Windows 來串流感測器資料或控制車輛的轉向,延遲會高到完全不能用。你需要的是一套專門為即時控制、記憶體管理、高可靠性訊息傳遞而設計的作業系統,連宇宙射線翻轉處理器上的一個位元,都要有對應的故障安全機制。
尤尼斯補充了另一個面向。在礦場和農場,自動化其實二十年前就存在了,但那是用手工編碼寫死的系統,機器沿著固定路線跑過去再跑回來。RTK(即時動態定位)技術提供一到兩公分的精度,讓聯合收割機可以精確地沿著田間直線前進。這確實有用,但不是智慧。真正的智慧是機器能夠看見環境、理解動態變化、自主做決策。從「照著路線走」到「看得見、想得通、做得對」,這中間的距離比大多數人想的要遠得多。
三根支柱:模擬、作業系統、AI 模型
路德維希把公司的技術架構拆成三根支柱。第一根是模擬。如果你要開發涉及移動機器的複雜軟體系統,測試環節不可能全靠真實世界。最好的方式是結合虛擬模擬和實機測試,然後仔細校準兩者之間的差異。但他特別強調,第一次跑出來的模擬結果不可能準確反映現實,一定要經過反覆的「sim-to-real matching」流程,用真實世界的回饋去調整模擬器的參數。這個校準迴圈要跑很多遍,直到有足夠的信心確認模擬器的結果是可信的。
更前沿的技術是他們所謂的「神經模擬」(neural simulation)。傳統模擬是把教科書上的物理公式(車輛動力學、流體力學等)寫進軟體裡。神經模擬則結合了 Gaussian splatting 和擴散模型(diffusion)等生成式技術,可以用真實世界的資料來擴展模擬環境。這對端到端自駕模型的訓練特別重要,因為這種模型直接從感測器資料學習到控制訊號輸出,所以訓練時必須模擬完整的感測器資料,而不只是物理參數。路德維希在這裡反覆強調一件事:效能就是一切。模擬跑得不夠快、不夠便宜,最後得到的結果就沒有價值。
第二根支柱是作業系統。多數人想到車上的作業系統,腦中浮現的是那塊觸控螢幕(也就是人機介面,HMI),但路德維希說那只是最表層的一個薄片。真正重要的是底層的安全攸關嵌入式系統:電動馬達的即時控制、轉向機構的冗餘設計、感測器資料的即時串流,這些都需要作業系統層級的深度支援。Applied Intuition 投入 OS 開發的起因很實際:他們在做自駕系統時,試用了市場上現有的各種作業系統,發現沒有一個能讓他們滿意。工程團隊的結論是「我們自己做一個會更好」,就這樣催生了作業系統事業線。
這套 OS 有一件聽起來不性感但影響巨大的功能:高可靠度的遠端軟體更新。Tesla 車主大概每個月收到一次 OTA 更新,但在整個汽車產業中,絕大多數車廠根本做不到遠端更新安全攸關的子系統,車主得把車開回經銷商才能更新韌體。Applied Intuition 的 OS 讓製造商可以可靠地遠端更新車上的任何模組。路德維希說這件事「遠比說起來難得多」,因為你絕對不能在更新過程中把一台車變磚,尤其是正在路上跑的車。但就產業衝擊而言,這可能是他們對整個產業最立竿見影的貢獻。
第三根支柱是基礎 AI 技術。這包含世界模型、自駕模型,以及一個正在發生的典範轉移:從人類下指令到人機協作。尤尼斯用農場的場景來說明。一個農夫管理多台機器,每台機器上的 AI 代理自主運作、自主決策,直到遇到需要人類介入的關鍵事件。操作方式也在改變,從按鈕和觸控螢幕變成語音對話,機器甚至會感知駕駛艙裡的人處於什麼狀態(清醒?疲勞?)。這個概念跟軟體世界裡用 Claude 在背景跑多個 Agent 的邏輯幾乎一模一樣,只是搬到了物理世界裡。
每一毫秒的零頭都很重要
尤尼斯在訪談中說了一句話,值得所有在 AI 領域工作的人停下來想一想:「在 Physical AI 的世界裡,瓶頸不是模型的智慧,是部署。」在資料中心裡,一個模型花一秒或十秒給你答案,差別不大,因為你有時間。模型可以很大,可以跑在巨大的 GPU 叢集上,可以做分散式運算。但在車上、在農機裡、在無人機上,這些條件全部不存在。你只有固定的幾毫秒可以拿到模型的回應,超過這個時限,車輛就無法正常運作。
這意味著大量的工程精力花在模型蒸餾和效率優化上。路德維希把機載(onboard)軟體和離線(offboard)軟體做了一個清楚的區分。離線的時候你不用在意時間,模型想多大就多大。但機載模型是大型模型的衍生物:它保留了核心能力,但被壓縮到可以在嵌入式系統上即時運行的大小。而且你不只要管延遲,還要管功耗、散熱和機械耐受度。一台安裝在卡車上的嵌入式電腦,得在高溫、極寒和持續震動中穩定運行。Transformer 架構現在已經無所不在,但在這種環境裡,每一個設計選擇都是能力、功耗和物理條件之間的三方拉鋸。
路德維希在節目最後特別提到一件事:在 vibe coding 的時代,有一批工程師完全不思考硬體,但 Applied Intuition 沒有這種奢侈。他們需要真正理解硬體和軟體邊界的人。有趣的是,公司內部已經全面擁抱 AI 開發工具(從 Cursor 到 Claude Code 都在用,還有內部排行榜鼓勵採用),但他們觀察到一個現象:工程師的生產力出現了雙峰分布。有一群人投入時間鑽研這些工具,生產力飆升;另一群人沒有,兩者之間的落差巨大。路德維希甚至提到,最新的模型已經可以寫 GPU shader 和嵌入式系統的設定檔,品質好到讓人吃驚,但在安全攸關的場景裡,人類驗證仍然是 100% 不可省略的環節。
安全的定義正在被改寫
Physical AI 的安全驗證正在經歷一場根本性的轉變。傳統做法是二元的:歐洲的 Euro NCAP 新車評鑑程式有一組定義好的測試案例,包括自動緊急煞車對突然衝出的兒童、被遮擋的行人等場景,車輛要一個一個通過。十幾年來,整個產業就是這樣運作的。但端到端模型的輸出本質上是統計性的,你問的不再是「有沒有通過」,而是「能達到幾個 9 的可靠度」、「平均故障間隔時間是多少」。路德維希說,好消息是這些模型的可靠度現在已經好到有經濟效益,可以真正大規模部署。
但技術上的統計安全不等於社會心理上的接受。節目主持人提了一個直接的問題:Cruise 因為一場事故基本上毀了整家公司,社會是不是對單一事件反應過度?尤尼斯的回答很務實。他認為 Cruise 的核心問題不純粹是技術失誤,而是事發後公司跟監管機構的溝通方式讓事態嚴重惡化。「有一個 Cruise 繼續存在的版本,」他說,「如果他們處理得當的話。」Waymo 也發生過事故,但因為態度和處理方式的不同,反而為產業建立了正面的信任基準。長期來看,真正的問題是:人類在統計上是遠比自駕系統更差的駕駛者,疲勞駕駛和酒駕每天都在造成傷亡。社會什麼時候能接受「AI 偶爾犯人類不會犯的錯誤,但整體安全得多」這件事?
尤尼斯提到一個實用的概念。模擬有一條「meniscus line」(彎月線),超過這條線之後,試圖在模擬器裡完美重現現實的成本會高到不合理。他們的做法是分層:95% 的測試走傳統 CI/CD 流程,4% 在硬體迴路測試台上做(有完整的車輛電子零件但沒有輪胎),最後 1% 在實體機器上跑。路德維希還舉了一個精彩的例子:人形機器人的馬達過熱問題。如果你在模擬器裡把馬達溫度設為可觀測的參數,強化學習的策略就會學到自動控制動作幅度,避免過熱。但如果模擬器裡根本沒有溫度這個參數,策略就會忽略這個物理限制,部署到真機上馬達直接燒掉。模擬和現實之間的落差,往往藏在這些你一開始沒想到要模擬的細節裡。
複合效應:撐過漫長的平路之後
尤尼斯在談商業策略時提出了一個他認為被嚴重低估的概念:複合技術(compounding technology)。Applied Intuition 做的每一件事都在累積。作業系統每次迭代都變得更好,開發工具越用越精進,AI 模型持續改善。這種累積不是線性的,而是指數性的。他拿 Waymo 當例子:這家公司很長一段時間「只是有趣」,但突然之間就值 1,260 億美元了。人腦在情感上很難理解複合成長的力量,這就是為什麼大多數人會低估這類公司的潛力。
對想進入硬科技領域的創辦人,尤尼斯的建議很具體:先把商業面的約束條件設好。太多創辦人的產品策略是「廣而淺」,什麼都想做一點,結果每件事都很平庸。在硬科技領域這尤其致命,因為技術問題本身已經夠困難了,如果商業面也不聚焦,有限的資源就會被稀釋到什麼都做不好。他建議找一個小而具體的問題空間,往深裡走。另外他反覆提醒:不要抄成熟公司的策略。很多創辦人說「賈伯斯主張完全垂直整合」,但那是 2007 年的 Apple,不是 1978 年的。那些公司處於完全不同的階段。同樣的道理,也不要去模仿其他剛起步的新創,因為大多數會失敗。唯一可靠的方法是第一性原理思考:看你的團隊能做什麼、客戶在說什麼,從這裡出發去定義產品空間。
我的觀察:AI 真正改變世界的地方,可能不在螢幕上
整場訪談聽下來,最讓我停下來想的不是任何一項技術突破,而是一個視野上的反差。過去三年,幾乎所有的注意力都放在「螢幕上的 AI」:ChatGPT 能寫什麼、Cursor 能改什麼、Claude 能做什麼。但 Applied Intuition 兩位創辦人在談的,是一個規模大得多、影響深得多,卻幾乎沒人在討論的世界。全球有數十億台實體機器在運轉,從卡車到聯合收割機到國防載具,這些機器的軟體狀態相當於 2007 年的手機。如果 Android 統一手機作業系統催生了整個行動網路生態系,那 Physical AI 的作業系統統一會催生什麼?
尤尼斯說了一句話,我覺得值得每一個想做難事的人記住。他說複合技術的特性是:前面很長一段路看起來什麼都沒發生,但一旦到了臨界點,回報是巨大的。問題是很多人撐不到那一天。Applied Intuition 從 2017 年開始做,到現在快十年了。他們的技術堆疊每兩年完全重寫一次,已經歷了四次大迭代。在這個每季都有新 AI 明星公司出現的產業裡,十年的耐心和四次技術重寫,可能就是最難被複製的護城河。