AI 產業動態

瓶頸不是模型不夠聰明：Applied Intuition 要做每一台移動機器的 Android

當 AI 產業聚焦大型語言模型的軍備競賽，Applied Intuition 兩位創辦人在 Latent Space Podcast 拆解了 Physical AI 的真正瓶頸：不是模型智慧不夠，而是如何把 AI 部署到卡車、農機和戰場上的每一台實體機器。他們的解法是打造移動機器的 Android。

2026 年 5 月 30 日 · 來源： Latent Space Podcast

瓶頸不是模型不夠聰明：Applied Intuition 要做每一台移動機器的 Android

本文整理自 Latent Space Podcast 2026 年 4 月播出的單集。

{{< apple-podcast "tw/podcast/physical-ai-that-moves-the-world-qasar-younis-peter/id1674008350?i=1000763938347" >}}

五十幾種作業系統的噩夢

Applied Intuition 技術長路德維希（Peter Ludwig）在 Latent Space Podcast 上講了一段往事。他在 Google 的 Android 團隊待過好幾年，很清楚 Google 當初為什麼要做 Android。那時候 Google 想讓自家產品跑在各種手機上，團隊買了五十多款手機回來測試，結果發現上面跑著五十幾種不同的作業系統。要讓一個 app 在每一台裝置上都跑得好，幾乎不可能。最後的解法是：與其一個一個去適配，不如打造一套夠好的作業系統，讓所有手機廠商都願意採用。

路德維希說，今天的實體移動機器，從卡車到農機到礦場設備，正處於 Android 出現之前的那個狀態。每家製造商的韌體和軟體各自為政，碎片化的程度比當年的手機市場更嚴重。你想在一台聯合收割機上部署端到端的自駕模型？先搞定它那套用了二十年的手工編碼控制系統再說。Applied Intuition 做的事，就是先把作業系統這一層統一起來，讓現代 AI 應用有一個可靠的平台可以跑。

這家公司目前估值 150 億美元，工程師超過一千人，佔全公司人數的 83%。全球前二十大非中國車廠中有十八家是客戶，美國國防部也是。共同創辦人暨執行長尤尼斯（Qasar Younis）念的是凱特林大學（前身為通用汽車技術學院），在 GM 和博世做過工程師，後來當了 Y Combinator 的營運長。路德維希則是密西根大學 CS 碩士，在 Google 做了五年 Android Automotive 和 Google Maps。兩個人都不是從 AI 實驗室出來的，而是從「把軟體塞進實體機器」這件事的第一線走過來的。

螢幕上出錯叫尷尬，機器上出錯叫事故

尤尼斯在節目開頭就畫了一條很清楚的線。過去三年 AI 產業的焦點幾乎全在大型語言模型上，所有東西都活在螢幕裡。Applied Intuition 做的事完全不同，他們把智慧部署到「沒有螢幕的東西」上面，而且是在安全攸關的環境裡。你問 ChatGPT 「幫我介紹一下這兩位 Podcast 主持人」，答錯了頂多尷尬。但他們此刻正在日本營運 L4 等級的無人卡車，容不下任何錯誤。

這個差異不只是程度問題，而是本質上的不同。在螢幕上的 AI，出錯的代價是使用者翻白眼。在實體機器上，出錯的代價可能是人命。路德維希解釋，你不能用 Microsoft Windows 來串流感測器資料或控制車輛的轉向，延遲會高到完全不能用。你需要的是一套專門為即時控制、記憶體管理、高可靠性訊息傳遞而設計的作業系統，連宇宙射線翻轉處理器上的一個位元，都要有對應的故障安全機制。

尤尼斯補充了另一個面向。在礦場和農場，自動化其實二十年前就存在了，但那是用手工編碼寫死的系統，機器沿著固定路線跑過去再跑回來。RTK（即時動態定位）技術提供一到兩公分的精度，讓聯合收割機可以精確地沿著田間直線前進。這確實有用，但不是智慧。真正的智慧是機器能夠看見環境、理解動態變化、自主做決策。從「照著路線走」到「看得見、想得通、做得對」，這中間的距離比大多數人想的要遠得多。

三根支柱：模擬、作業系統、AI 模型

路德維希把公司的技術架構拆成三根支柱。第一根是模擬。如果你要開發涉及移動機器的複雜軟體系統，測試環節不可能全靠真實世界。最好的方式是結合虛擬模擬和實機測試，然後仔細校準兩者之間的差異。但他特別強調，第一次跑出來的模擬結果不可能準確反映現實，一定要經過反覆的「sim-to-real matching」流程，用真實世界的回饋去調整模擬器的參數。這個校準迴圈要跑很多遍，直到有足夠的信心確認模擬器的結果是可信的。

更前沿的技術是他們所謂的「神經模擬」（neural simulation）。傳統模擬是把教科書上的物理公式（車輛動力學、流體力學等）寫進軟體裡。神經模擬則結合了 Gaussian splatting 和擴散模型（diffusion）等生成式技術，可以用真實世界的資料來擴展模擬環境。這對端到端自駕模型的訓練特別重要，因為這種模型直接從感測器資料學習到控制訊號輸出，所以訓練時必須模擬完整的感測器資料，而不只是物理參數。路德維希在這裡反覆強調一件事：效能就是一切。模擬跑得不夠快、不夠便宜，最後得到的結果就沒有價值。

第二根支柱是作業系統。多數人想到車上的作業系統，腦中浮現的是那塊觸控螢幕（也就是人機介面，HMI），但路德維希說那只是最表層的一個薄片。真正重要的是底層的安全攸關嵌入式系統：電動馬達的即時控制、轉向機構的冗餘設計、感測器資料的即時串流，這些都需要作業系統層級的深度支援。Applied Intuition 投入 OS 開發的起因很實際：他們在做自駕系統時，試用了市場上現有的各種作業系統，發現沒有一個能讓他們滿意。工程團隊的結論是「我們自己做一個會更好」，就這樣催生了作業系統事業線。

這套 OS 有一件聽起來不性感但影響巨大的功能：高可靠度的遠端軟體更新。Tesla 車主大概每個月收到一次 OTA 更新，但在整個汽車產業中，絕大多數車廠根本做不到遠端更新安全攸關的子系統，車主得把車開回經銷商才能更新韌體。Applied Intuition 的 OS 讓製造商可以可靠地遠端更新車上的任何模組。路德維希說這件事「遠比說起來難得多」，因為你絕對不能在更新過程中把一台車變磚，尤其是正在路上跑的車。但就產業衝擊而言，這可能是他們對整個產業最立竿見影的貢獻。

第三根支柱是基礎 AI 技術。這包含世界模型、自駕模型，以及一個正在發生的典範轉移：從人類下指令到人機協作。尤尼斯用農場的場景來說明。一個農夫管理多台機器，每台機器上的 AI 代理自主運作、自主決策，直到遇到需要人類介入的關鍵事件。操作方式也在改變，從按鈕和觸控螢幕變成語音對話，機器甚至會感知駕駛艙裡的人處於什麼狀態（清醒？疲勞？）。這個概念跟軟體世界裡用 Claude 在背景跑多個 Agent 的邏輯幾乎一模一樣，只是搬到了物理世界裡。

每一毫秒的零頭都很重要

尤尼斯在訪談中說了一句話，值得所有在 AI 領域工作的人停下來想一想：「在 Physical AI 的世界裡，瓶頸不是模型的智慧，是部署。」在資料中心裡，一個模型花一秒或十秒給你答案，差別不大，因為你有時間。模型可以很大，可以跑在巨大的 GPU 叢集上，可以做分散式運算。但在車上、在農機裡、在無人機上，這些條件全部不存在。你只有固定的幾毫秒可以拿到模型的回應，超過這個時限，車輛就無法正常運作。

這意味著大量的工程精力花在模型蒸餾和效率優化上。路德維希把機載（onboard）軟體和離線（offboard）軟體做了一個清楚的區分。離線的時候你不用在意時間，模型想多大就多大。但機載模型是大型模型的衍生物：它保留了核心能力，但被壓縮到可以在嵌入式系統上即時運行的大小。而且你不只要管延遲，還要管功耗、散熱和機械耐受度。一台安裝在卡車上的嵌入式電腦，得在高溫、極寒和持續震動中穩定運行。Transformer 架構現在已經無所不在，但在這種環境裡，每一個設計選擇都是能力、功耗和物理條件之間的三方拉鋸。

路德維希在節目最後特別提到一件事：在 vibe coding 的時代，有一批工程師完全不思考硬體，但 Applied Intuition 沒有這種奢侈。他們需要真正理解硬體和軟體邊界的人。有趣的是，公司內部已經全面擁抱 AI 開發工具（從 Cursor 到 Claude Code 都在用，還有內部排行榜鼓勵採用），但他們觀察到一個現象：工程師的生產力出現了雙峰分布。有一群人投入時間鑽研這些工具，生產力飆升；另一群人沒有，兩者之間的落差巨大。路德維希甚至提到，最新的模型已經可以寫 GPU shader 和嵌入式系統的設定檔，品質好到讓人吃驚，但在安全攸關的場景裡，人類驗證仍然是 100% 不可省略的環節。

安全的定義正在被改寫

Physical AI 的安全驗證正在經歷一場根本性的轉變。傳統做法是二元的：歐洲的 Euro NCAP 新車評鑑程式有一組定義好的測試案例，包括自動緊急煞車對突然衝出的兒童、被遮擋的行人等場景，車輛要一個一個通過。十幾年來，整個產業就是這樣運作的。但端到端模型的輸出本質上是統計性的，你問的不再是「有沒有通過」，而是「能達到幾個 9 的可靠度」、「平均故障間隔時間是多少」。路德維希說，好消息是這些模型的可靠度現在已經好到有經濟效益，可以真正大規模部署。

但技術上的統計安全不等於社會心理上的接受。節目主持人提了一個直接的問題：Cruise 因為一場事故基本上毀了整家公司，社會是不是對單一事件反應過度？尤尼斯的回答很務實。他認為 Cruise 的核心問題不純粹是技術失誤，而是事發後公司跟監管機構的溝通方式讓事態嚴重惡化。「有一個 Cruise 繼續存在的版本，」他說，「如果他們處理得當的話。」Waymo 也發生過事故，但因為態度和處理方式的不同，反而為產業建立了正面的信任基準。長期來看，真正的問題是：人類在統計上是遠比自駕系統更差的駕駛者，疲勞駕駛和酒駕每天都在造成傷亡。社會什麼時候能接受「AI 偶爾犯人類不會犯的錯誤，但整體安全得多」這件事？

尤尼斯提到一個實用的概念。模擬有一條「meniscus line」（彎月線），超過這條線之後，試圖在模擬器裡完美重現現實的成本會高到不合理。他們的做法是分層：95% 的測試走傳統 CI/CD 流程，4% 在硬體迴路測試台上做（有完整的車輛電子零件但沒有輪胎），最後 1% 在實體機器上跑。路德維希還舉了一個精彩的例子：人形機器人的馬達過熱問題。如果你在模擬器裡把馬達溫度設為可觀測的參數，強化學習的策略就會學到自動控制動作幅度，避免過熱。但如果模擬器裡根本沒有溫度這個參數，策略就會忽略這個物理限制，部署到真機上馬達直接燒掉。模擬和現實之間的落差，往往藏在這些你一開始沒想到要模擬的細節裡。

複合效應：撐過漫長的平路之後

尤尼斯在談商業策略時提出了一個他認為被嚴重低估的概念：複合技術（compounding technology）。Applied Intuition 做的每一件事都在累積。作業系統每次迭代都變得更好，開發工具越用越精進，AI 模型持續改善。這種累積不是線性的，而是指數性的。他拿 Waymo 當例子：這家公司很長一段時間「只是有趣」，但突然之間就值 1,260 億美元了。人腦在情感上很難理解複合成長的力量，這就是為什麼大多數人會低估這類公司的潛力。

對想進入硬科技領域的創辦人，尤尼斯的建議很具體：先把商業面的約束條件設好。太多創辦人的產品策略是「廣而淺」，什麼都想做一點，結果每件事都很平庸。在硬科技領域這尤其致命，因為技術問題本身已經夠困難了，如果商業面也不聚焦，有限的資源就會被稀釋到什麼都做不好。他建議找一個小而具體的問題空間，往深裡走。另外他反覆提醒：不要抄成熟公司的策略。很多創辦人說「賈伯斯主張完全垂直整合」，但那是 2007 年的 Apple，不是 1978 年的。那些公司處於完全不同的階段。同樣的道理，也不要去模仿其他剛起步的新創，因為大多數會失敗。唯一可靠的方法是第一性原理思考：看你的團隊能做什麼、客戶在說什麼，從這裡出發去定義產品空間。

我的觀察：AI 真正改變世界的地方，可能不在螢幕上

整場訪談聽下來，最讓我停下來想的不是任何一項技術突破，而是一個視野上的反差。過去三年，幾乎所有的注意力都放在「螢幕上的 AI」：ChatGPT 能寫什麼、Cursor 能改什麼、Claude 能做什麼。但 Applied Intuition 兩位創辦人在談的，是一個規模大得多、影響深得多，卻幾乎沒人在討論的世界。全球有數十億台實體機器在運轉，從卡車到聯合收割機到國防載具，這些機器的軟體狀態相當於 2007 年的手機。如果 Android 統一手機作業系統催生了整個行動網路生態系，那 Physical AI 的作業系統統一會催生什麼？

尤尼斯說了一句話，我覺得值得每一個想做難事的人記住。他說複合技術的特性是：前面很長一段路看起來什麼都沒發生，但一旦到了臨界點，回報是巨大的。問題是很多人撐不到那一天。Applied Intuition 從 2017 年開始做，到現在快十年了。他們的技術堆疊每兩年完全重寫一次，已經歷了四次大迭代。在這個每季都有新 AI 明星公司出現的產業裡，十年的耐心和四次技術重寫，可能就是最難被複製的護城河。