20 毫秒的生死線:恩智浦神經軸架構的三個實戰場景

從無人機的 20 毫秒避障、軟體定義車輛的三層分離架構,到人形機器人 40 毫秒內的碰撞恢復,恩智浦在 COMPUTEX 2026 以神經軸架構展示物理 AI 落地的三大實戰場景,以及 VLA 模型和 eIQ 工具鏈如何將雲端智慧壓縮到邊緣晶片。

20 毫秒的生死線:恩智浦神經軸架構的三個實戰場景

本文整理自恩智浦半導體(NXP)執行長索托馬約(Rafael Sotomayor)2026 年 5 月在 COMPUTEX TAIPEI 的主題演講。

{{< youtube 6fg2TOX9Pq8 >}}


無人機:錯過 20 毫秒就墜機

索托馬約(Rafael Sotomayor)在 COMPUTEX 2026 展示的第一個實戰場景是無人機。不是那種拍風景的空拍機,而是在倉庫、農場、災區執行任務的自主飛行無人機。他用了一個很直接的指標來說明問題:glass-to-glass latency,也就是從攝影機捕捉到畫面、處理影像、做出判斷、到控制器啟動馬達的整個循環時間。恩智浦的目標是把這個數字壓到 20 毫秒以內。

20 毫秒有多快?人類眨眼一次大約需要 300 到 400 毫秒。換句話說,在你眨一次眼的時間裡,這架無人機已經完成了至少 15 次「看到障礙物、計算閃避路徑、調整飛行姿態」的循環。如果這個延遲超過 20 毫秒,無人機在高速飛行時就可能來不及閃避突然出現的障礙物。在室內倉庫裡,這個「來不及」的代價是撞牆墜毀,在有人的環境裡,代價可能更高。

索托馬約用這個場景來解釋神經軸架構的三層如何運作。推理層負責路徑規劃,決定無人機該往哪裡飛、用什麼路線最有效率。協調層負責飛行姿態控制,讓四個旋翼的轉速配合得當,維持穩定飛行。反射層則分布在各個感測器和馬達控制器旁邊,當某個旋翼突然遇到氣流干擾或即將撞上障礙物時,它不需要等推理層下達指令,直接在本地做出微秒級的修正。

「你不能等大腦做決定,」他說,「當你要撞上東西的時候,你需要的是脊髓。」

軟體定義車輛:三層分離攸關人命

第二個場景是軟體定義車輛(Software-Defined Vehicle, SDV)。這個概念這幾年在汽車產業已經不算新了,但索托馬約把它放在神經軸架構下重新詮釋,角度有些不同。

傳統汽車的電子控制單元(ECU)可能有上百個,每個 ECU 各管一件事:一個管車窗、一個管雨刷、一個管煞車。軟體定義車輛的做法是把這些功能收攏到少數幾個大型運算平台上,用軟體來定義和更新功能。這聽起來很合理,但索托馬約提出了一個關鍵問題:收攏不能收到只剩一個中央大腦。

原因很簡單,和人命有關。當你以時速 120 公里行駛在高速公路上,前方突然有東西掉下來,你需要煞車系統在幾毫秒內做出反應。如果煞車指令必須先送到車上的中央電腦,排隊等處理,再送回煞車控制器,這個延遲就可能要人命。更危險的是,如果那台中央電腦當機了,所有功能會同時失效。索托馬約用了一個比喻:你不會希望你的車在更新娛樂系統的時候,煞車也一起停掉。

恩智浦在這裡的解法是 S32 系列晶片平台。S32N 採用 5 奈米製程,負責車輛的協調層:跨域通訊、整車 OTA 更新、感測器數據融合。S32K 系列則是反射層的核心,分布在煞車、懸吊、轉向等安全關鍵系統的末端,具備獨立運算能力。當協調層忙著處理語音助理的問題時,S32K 正在獨立監控煞車距離,隨時準備在微秒內啟動緊急煞車。兩者各司其職,但透過高速車內網路保持同步。

「車是所有邊緣裝置裡最複雜的,」索托馬約說。這不是誇飾。一輛現代車的軟體程式碼量已經超過一架 F-35 戰鬥機,而且它必須在 -40°C 到 85°C 的環境下可靠運作十五年以上。

人形機器人:40 毫秒內的生存考驗

第三個場景是人形機器人,也是索托馬約花最多時間談的主題。他的起手式很有意思:先展示一段 NVIDIA 的 GR00T N1 機器人影片,機器人優雅地抓取物品、分類包裹。然後他話鋒一轉,問了一個大家通常不會想到的問題:「如果有人不小心撞了這台機器人一下,會怎樣?」

答案是:如果機器人沒辦法在大約 40 毫秒內做出反應,穩住身體或調整重心,它就會摔倒。而一台價值數萬美元的人形機器人摔倒在生產線上,損壞的不只是它自己,還可能傷到旁邊的工人和設備。40 毫秒,這就是從碰撞發生到必須完成恢復動作的時間窗口,而且整個過程必須在機器人本地完成,不能打電話回雲端問「該怎麼辦」。

索托馬約在這裡把神經軸架構的三層對應得非常具體。推理層使用 GPU 或 NPU 等高算力處理器,執行視覺語言動作模型(Vision Language Action Model, VLA),負責理解環境、規劃動作序列。協調層的即時控制器負責步態生成、平衡維持、多關節協調這些需要毫秒級更新的任務。反射層則分布在各個關節的馬達控制器上,由 MCU(微控制器)和感測器組成,處理力矩回饋、碰撞偵測這些微秒級的緊急反應。

動作不等於理解:世界模型和 VLA 的角色

但光有三層架構的硬體還不夠。索托馬約花了不少篇幅談軟體端的挑戰,特別是兩個關鍵概念:世界模型(World Models)和視覺語言動作模型(VLA)。

一台機器人可以透過大量反覆試驗學會走路。但這樣做的問題是:每次試驗都可能損壞設備,而且學習效率極低。世界模型的作用是把物理世界的基本規則(重力、摩擦力、慣性、物體的質量和形狀)注入機器人的認知系統,讓它在「動手」之前先在內部模擬結果。索托馬約打了一個比喻:你不需要真的從懸崖跳下去才能學會「跳下去會摔死」。

VLA 模型則是另一個維度的整合。傳統的視覺模型看得見東西,語言模型能理解指令,但兩者之間缺少一座橋。VLA 把視覺感知、語言理解和動作生成整合在一個端到端的框架裡。你對機器人說「把桌上的紅色杯子拿給我」,VLA 負責從攝影機畫面中找到紅色杯子、規劃手臂的動作軌跡、並生成控制各關節馬達的指令序列。

不過這裡有一個現實的問題。VLA 模型通常非常大,需要在雲端用大量 GPU 訓練。但在實際部署時,機器人身上的算力和功耗預算極為有限。一台倉庫機器人不可能背著一座小型資料中心到處跑。

從雲端到邊緣:eIQ 工具鏈的部署挑戰

這就是恩智浦 eIQ 工具套件要解決的問題。索托馬約沒有把 eIQ 包裝成什麼革命性突破,而是很務實地把它描述成一套「搬運工具」:幫助開發者把在雲端訓練好的大型 AI 模型,壓縮、剪枝、量化、編譯之後,塞進邊緣裝置上的晶片。

這套流程的技術細節不少,但核心邏輯很直覺。在雲端訓練時,模型用的是 32 位浮點數(FP32),精度高但運算量大。部署到邊緣時,eIQ 會把精度降到 8 位整數(INT8)甚至更低,犧牲一些精確度來換取十倍以上的運算速度提升和能耗降低。同時,模型中對結果影響最小的參數會被剪掉(pruning),進一步縮小模型體積。最後,編譯器會把優化過的模型轉換成特定晶片能直接執行的機器碼。

索托馬約強調的一點是:這套工具對接的不只是恩智浦自家的晶片,而是支援多種主流的 AI 訓練框架(PyTorch、TensorFlow、ONNX)。他的說法是,恩智浦不打算綁定開發者用什麼工具訓練模型,只負責把訓練好的模型高效地「搬」到邊緣去。這個定位很聰明,避開了和 NVIDIA、Google 在訓練端的直接競爭,把戰場拉到自己擅長的邊緣部署。

我的觀察:數字不說謊,但也不說全部

索托馬約在演講中丟出了兩個很有力的數字。第一個是工廠自動化場景中,使用恩智浦方案的產線生產力比現有自動化基準提升了 40%。第二個更驚人:GE 醫療(GE HealthCare)的診斷與實驗室機器人相關業務在 2025 年營收成長了 610%。這些數字說明物理 AI 不是停留在簡報裡的概念,它已經在產生營收。

但我想提醒的是,這兩個數字的脈絡值得仔細看。工廠自動化的 40% 是相對於「現有自動化基準」而非人工,意思是在已經自動化的產線上再疊加 AI 帶來的提升,這個基數本身就已經很高了,40% 的增幅相當可觀。GE 醫療的 610% 成長則需要考慮基期效應:如果 2024 年的基數很小,610% 的成長率聽起來驚人但絕對數字可能沒那麼大。索托馬約刻意選擇這兩個數字,一個證明效率,一個證明市場成長,組合起來構成了一個完整的商業論述。

不過撇開數字的修辭,底層的訊號是清楚的。邊緣 AI 正在從「概念驗證」過渡到「規模部署」,而恩智浦的神經軸架構提供了一個夠具體的藍圖,讓開發者知道三層分別該放什麼晶片、跑什麼模型、用什麼工具。這比任何投影片上的願景圖都有說服力。