AI 技術前沿

20 毫秒的生死線：恩智浦神經軸架構的三個實戰場景

從無人機的 20 毫秒避障、軟體定義車輛的三層分離架構，到人形機器人 40 毫秒內的碰撞恢復，恩智浦在 COMPUTEX 2026 以神經軸架構展示物理 AI 落地的三大實戰場景，以及 VLA 模型和 eIQ 工具鏈如何將雲端智慧壓縮到邊緣晶片。

2026 年 6 月 12 日 · 來源： COMPUTEX TAIPEI

本文整理自恩智浦半導體（NXP）執行長索托馬約（Rafael Sotomayor）2026 年 5 月在 COMPUTEX TAIPEI 的主題演講。

無人機：錯過 20 毫秒就墜機

索托馬約（Rafael Sotomayor）在 COMPUTEX 2026 展示的第一個實戰場景是無人機。不是那種拍風景的空拍機，而是在倉庫、農場、災區執行任務的自主飛行無人機。他用了一個很直接的指標來說明問題：glass-to-glass latency，也就是從攝影機捕捉到畫面、處理影像、做出判斷、到控制器啟動馬達的整個循環時間。恩智浦的目標是把這個數字壓到 20 毫秒以內。

20 毫秒有多快？人類眨眼一次大約需要 300 到 400 毫秒。換句話說，在你眨一次眼的時間裡，這架無人機已經完成了至少 15 次「看到障礙物、計算閃避路徑、調整飛行姿態」的循環。如果這個延遲超過 20 毫秒，無人機在高速飛行時就可能來不及閃避突然出現的障礙物。在室內倉庫裡，這個「來不及」的代價是撞牆墜毀，在有人的環境裡，代價可能更高。

索托馬約用這個場景來解釋神經軸架構的三層如何運作。推理層負責路徑規劃，決定無人機該往哪裡飛、用什麼路線最有效率。協調層負責飛行姿態控制，讓四個旋翼的轉速配合得當，維持穩定飛行。反射層則分布在各個感測器和馬達控制器旁邊，當某個旋翼突然遇到氣流干擾或即將撞上障礙物時，它不需要等推理層下達指令，直接在本地做出微秒級的修正。

「你不能等大腦做決定，」他說，「當你要撞上東西的時候，你需要的是脊髓。」

軟體定義車輛：三層分離攸關人命

第二個場景是軟體定義車輛（Software-Defined Vehicle, SDV）。這個概念這幾年在汽車產業已經不算新了，但索托馬約把它放在神經軸架構下重新詮釋，角度有些不同。

傳統汽車的電子控制單元（ECU）可能有上百個，每個 ECU 各管一件事：一個管車窗、一個管雨刷、一個管煞車。軟體定義車輛的做法是把這些功能收攏到少數幾個大型運算平台上，用軟體來定義和更新功能。這聽起來很合理，但索托馬約提出了一個關鍵問題：收攏不能收到只剩一個中央大腦。

原因很簡單，和人命有關。當你以時速 120 公里行駛在高速公路上，前方突然有東西掉下來，你需要煞車系統在幾毫秒內做出反應。如果煞車指令必須先送到車上的中央電腦，排隊等處理，再送回煞車控制器，這個延遲就可能要人命。更危險的是，如果那台中央電腦當機了，所有功能會同時失效。索托馬約用了一個比喻：你不會希望你的車在更新娛樂系統的時候，煞車也一起停掉。

恩智浦在這裡的解法是 S32 系列晶片平台。S32N 採用 5 奈米製程，負責車輛的協調層：跨域通訊、整車 OTA 更新、感測器數據融合。S32K 系列則是反射層的核心，分布在煞車、懸吊、轉向等安全關鍵系統的末端，具備獨立運算能力。當協調層忙著處理語音助理的問題時，S32K 正在獨立監控煞車距離，隨時準備在微秒內啟動緊急煞車。兩者各司其職，但透過高速車內網路保持同步。

「車是所有邊緣裝置裡最複雜的，」索托馬約說。這不是誇飾。一輛現代車的軟體程式碼量已經超過一架 F-35 戰鬥機，而且它必須在 -40°C 到 85°C 的環境下可靠運作十五年以上。

人形機器人：40 毫秒內的生存考驗

第三個場景是人形機器人，也是索托馬約花最多時間談的主題。他的起手式很有意思：先展示一段 NVIDIA 的 GR00T N1 機器人影片，機器人優雅地抓取物品、分類包裹。然後他話鋒一轉，問了一個大家通常不會想到的問題：「如果有人不小心撞了這台機器人一下，會怎樣？」

答案是：如果機器人沒辦法在大約 40 毫秒內做出反應，穩住身體或調整重心，它就會摔倒。而一台價值數萬美元的人形機器人摔倒在生產線上，損壞的不只是它自己，還可能傷到旁邊的工人和設備。40 毫秒，這就是從碰撞發生到必須完成恢復動作的時間窗口，而且整個過程必須在機器人本地完成，不能打電話回雲端問「該怎麼辦」。

索托馬約在這裡把神經軸架構的三層對應得非常具體。推理層使用 GPU 或 NPU 等高算力處理器，執行視覺語言動作模型（Vision Language Action Model, VLA），負責理解環境、規劃動作序列。協調層的即時控制器負責步態生成、平衡維持、多關節協調這些需要毫秒級更新的任務。反射層則分布在各個關節的馬達控制器上，由 MCU（微控制器）和感測器組成，處理力矩回饋、碰撞偵測這些微秒級的緊急反應。

動作不等於理解：世界模型和 VLA 的角色

但光有三層架構的硬體還不夠。索托馬約花了不少篇幅談軟體端的挑戰，特別是兩個關鍵概念：世界模型（World Models）和視覺語言動作模型（VLA）。

一台機器人可以透過大量反覆試驗學會走路。但這樣做的問題是：每次試驗都可能損壞設備，而且學習效率極低。世界模型的作用是把物理世界的基本規則（重力、摩擦力、慣性、物體的質量和形狀）注入機器人的認知系統，讓它在「動手」之前先在內部模擬結果。索托馬約打了一個比喻：你不需要真的從懸崖跳下去才能學會「跳下去會摔死」。

VLA 模型則是另一個維度的整合。傳統的視覺模型看得見東西，語言模型能理解指令，但兩者之間缺少一座橋。VLA 把視覺感知、語言理解和動作生成整合在一個端到端的框架裡。你對機器人說「把桌上的紅色杯子拿給我」，VLA 負責從攝影機畫面中找到紅色杯子、規劃手臂的動作軌跡、並生成控制各關節馬達的指令序列。

不過這裡有一個現實的問題。VLA 模型通常非常大，需要在雲端用大量 GPU 訓練。但在實際部署時，機器人身上的算力和功耗預算極為有限。一台倉庫機器人不可能背著一座小型資料中心到處跑。

從雲端到邊緣：eIQ 工具鏈的部署挑戰

這就是恩智浦 eIQ 工具套件要解決的問題。索托馬約沒有把 eIQ 包裝成什麼革命性突破，而是很務實地把它描述成一套「搬運工具」：幫助開發者把在雲端訓練好的大型 AI 模型，壓縮、剪枝、量化、編譯之後，塞進邊緣裝置上的晶片。

這套流程的技術細節不少，但核心邏輯很直覺。在雲端訓練時，模型用的是 32 位浮點數（FP32），精度高但運算量大。部署到邊緣時，eIQ 會把精度降到 8 位整數（INT8）甚至更低，犧牲一些精確度來換取十倍以上的運算速度提升和能耗降低。同時，模型中對結果影響最小的參數會被剪掉（pruning），進一步縮小模型體積。最後，編譯器會把優化過的模型轉換成特定晶片能直接執行的機器碼。

索托馬約強調的一點是：這套工具對接的不只是恩智浦自家的晶片，而是支援多種主流的 AI 訓練框架（PyTorch、TensorFlow、ONNX）。他的說法是，恩智浦不打算綁定開發者用什麼工具訓練模型，只負責把訓練好的模型高效地「搬」到邊緣去。這個定位很聰明，避開了和 NVIDIA、Google 在訓練端的直接競爭，把戰場拉到自己擅長的邊緣部署。

我的觀察：數字不說謊，但也不說全部

索托馬約在演講中丟出了兩個很有力的數字。第一個是工廠自動化場景中，使用恩智浦方案的產線生產力比現有自動化基準提升了 40%。第二個更驚人：GE 醫療（GE HealthCare）的診斷與實驗室機器人相關業務在 2025 年營收成長了 610%。這些數字說明物理 AI 不是停留在簡報裡的概念，它已經在產生營收。

但我想提醒的是，這兩個數字的脈絡值得仔細看。工廠自動化的 40% 是相對於「現有自動化基準」而非人工，意思是在已經自動化的產線上再疊加 AI 帶來的提升，這個基數本身就已經很高了，40% 的增幅相當可觀。GE 醫療的 610% 成長則需要考慮基期效應：如果 2024 年的基數很小，610% 的成長率聽起來驚人但絕對數字可能沒那麼大。索托馬約刻意選擇這兩個數字，一個證明效率，一個證明市場成長，組合起來構成了一個完整的商業論述。

不過撇開數字的修辭，底層的訊號是清楚的。邊緣 AI 正在從「概念驗證」過渡到「規模部署」，而恩智浦的神經軸架構提供了一個夠具體的藍圖，讓開發者知道三層分別該放什麼晶片、跑什麼模型、用什麼工具。這比任何投影片上的願景圖都有說服力。