AI 技術前沿

把鏡頭塞進耳機,賭贏智慧眼鏡:華大 VueBuds 用 5mW 的能耗,挑戰 Meta Ray-Ban 的下一代 AI 穿戴邏輯

前蘋果 AirPods 工程師 Maruchi Kim 在華盛頓大學的博士論文 VueBuds,把米粒大小的鏡頭塞進 Sony 真無線耳機,用藍牙把單色低解析度影像送回手機讓 AI 看。實測 74 位受試者顯示,它在翻譯、物件辨識、書本辨識三項任務上跟 Meta Ray-Ban 平手,但隱私壓力小很多。Calacanis 在《This Week in Startups》上預測這條路線會被 Bose、索尼或蘋果在 6 到 18 個月內以 5,000 萬美元 acquihire,也點出 Humane AI Pin 失敗之後 AI 穿戴的真正勝負手。

2026 年 5 月 4 日 · 來源： This Week in Startups

把鏡頭塞進耳機,賭贏智慧眼鏡:華大 VueBuds 用 5mW 的能耗,挑戰 Meta Ray-Ban 的下一代 AI 穿戴邏輯

本文整理自《This Week in Startups》2026 年 4 月 25 日播出的 E2280。

{{< apple-podcast "tw/podcast/the-defense-tech-startup-yc-kicked-out-of-a-meeting/id315114957?i=1000763506581" >}}

過去十二個月,AI 穿戴的失敗清單比成功清單長很多。Humane AI Pin 在 2024 年發布之後一年內就被 HP 收掉、創辦人團隊解散;Rabbit R1 從話題到笑柄花了不到三個月;Meta Ray-Ban 智慧眼鏡靠著時尚品牌外觀勉強撐起銷量,但「人臉戴鏡頭」的社交摩擦從 2014 年 Google Glass 那一代就沒解決過;蘋果 Vision Pro 直接被自家內部當作研發平台、消費市場熱度退散。所有人都同意 AI 需要一雙眼睛,但所有人都在問:這雙眼睛應該長在哪裡?

2026 年 4 月在巴塞隆納舉辦的 CHI 大會給了一個意想不到的答案。華盛頓大學 Paul G. Allen 計算機學院的六年級博士生 Maruchi Kim 在會上發表了他的博士論文 VueBuds,把鏡頭直接塞進市售的 Sony WF-1000XM3 真無線耳機,用藍牙把影像送回手機讓視覺語言模型(VLM)解讀。Kim 的履歷不是隨便挑出來的:他在華盛頓大學念博士前,在蘋果工作了五年多,專責 AirPods Max 跟 AirPods Pro 2 的韌體跟硬體開發;畢業後直接進 Google 做 AR 眼鏡跟混合實境裝置的空間音訊系統。這個專案隔週就被 Jason Calacanis 拉上《This Week in Startups》討論,Calacanis 直接判斷:這是 AI 穿戴下一個五年的勝負手,而 Bose、索尼、蘋果三家裡有一家會在 6 到 18 個月內把它 acquihire 掉。

米粒大小的鏡頭,5 毫瓦的能耗預算

VueBuds 的硬體規格表第一次讀到時會讓人有點懷疑這是不是研究團隊偷工減料,但仔細看會發現每一個約束都是物理現實逼出來的選擇。每個耳機塞進一顆「大約米粒大小」的鏡頭,角度向外傾斜 5 到 10 度,單顆視角 98 到 108 度。鏡頭只拍單色靜態影像,解析度是 324×239 等級的低解析度,而且 20 公分以內有一個盲區拍不到。所有影像透過藍牙傳到配對的手機或筆電,在裝置上跑通用視覺語言模型,平均約 1 秒回應使用者的問題。

這套規格背後有兩條硬約束。第一條是電力。耳機本來就要塞進耳道,內建電池能擠出多少容量是極限賽,光是音樂播放就已經把續航壓在 6 到 8 小時。Kim 的研究設計把鏡頭的「按需啟動」機制做到平均功耗低於 5 毫瓦,意思是只在使用者問問題的瞬間才開鏡頭、拍幾張、傳出去,平時鏡頭是關的。如果改用 Wi-Fi 傳輸,光是無線模組的待機功耗就會把這個預算炸掉好幾倍,更別說從耳道往外發射 Wi-Fi 訊號這件事在電磁輻射上是不是個好主意。

第二條約束是頻寬。藍牙從一開始就不是為了傳影像設計的,它的可用音頻通道只能勉強塞下幾百 KB/s 的視覺資料。要在這個頻寬裡傳影像,你只剩兩條路:壓縮率拉到極限犧牲影像品質、或者主動降低解析度跟色彩深度。VueBuds 選了後者,單色 324×239 不是因為團隊做不出彩色高解析度,是因為這是藍牙物理頻寬上限框出來的最大可能性。Kim 用兩顆鏡頭各自拍、用影像縫合演算法把兩個視角組起來,讓 AI 拿到一個比單顆鏡頭涵蓋更廣的視野。

值得停下來咀嚼的是另一個數字。鏡頭本身的物料成本(BOM)只要 1 到 2 美元。Kim 在訪談裡明白指出:這個產品的真正技術護城河不在硬體,而在韌體跟藍牙串流的可靠度。讓兩顆鏡頭穩定同步、影像不掉幀、AI 模型在 1 秒內回應、整套系統在不同裝置不同藍牙版本上都能運作,這需要的是一整支有過大廠耳機開發經驗的團隊。Kim 的背景剛好是 5 年蘋果 AirPods Max 跟 AirPods Pro 2 的工程師,這個履歷不是巧合,是這個專案能做出來的前提。

跟 Meta Ray-Ban 平手的學術數字

VueBuds 不是只在實驗室裡做出來自己量自己,Kim 的論文做了一個 74 位受試者的對照實驗,直接拿 VueBuds 跟 Meta Ray-Ban 智慧眼鏡比。結果有點出乎意料:在三項主要任務上,兩者表現相當。

具體數字是這樣的。物件辨識(看到一個東西、問 AI 那是什麼)準確率,VueBuds 大約 83%,Meta Ray-Ban 在實驗條件下相當;翻譯任務(對著日文、韓文、中文的看板或包裝、要求即時翻譯)準確率約 84%;最強的是書本辨識,VueBuds 對書封正面拍攝的書名跟作者辨識準確率達 93%。Meta Ray-Ban 在某些任務上還微幅落後,因為它的鏡頭視角設定為了「眼前正前方」,使用者看書、看包裝時必須刻意把頭轉到正中央,而 VueBuds 兩顆鏡頭是耳側向外傾斜,自然涵蓋了使用者前方一個更廣的弧度。

更關鍵的是隱私維度。Meta Ray-Ban 拍的是高解析度彩色影像,可以辨識人臉;VueBuds 拍的是單色低解析度影像,基本上看不清楚 5 公尺外是誰。對使用者本人來說,他/她不會在錄高解析度個人記憶,只會在問 AI 問題的當下捕捉幾張低解析度黑白照;對被拍到的旁人來說,被一台單色 324×239 的相機掃到,等於只在某個 AI 後端看到一個低解析度的灰階輪廓。這個差異在實際使用情境下大幅降低社交摩擦,讓使用者可以在公共場合(餐廳、機場、會議)更自在地用 AI 視覺問答,不用每次都解釋「我沒有在錄你」。

Kim 在 CHI 會場的展示影片裡示範了一個情境:他拿一包韓國冷麵走到鏡頭前,說「Hey Vue, translate this for me」,VueBuds 拍下包裝、傳到 iPhone 上跑視覺語言模型,大約 1 秒後語音回答「The visible text translates to 'Cold Noodles' in English」。這個延遲跟 Meta Ray-Ban 的「Hey Meta, look at this」回應速度幾乎一樣,但兩個系統的硬體成本差距是十倍以上(Meta Ray-Ban 一副要 379 美元起)。

為什麼是耳機,不是眼鏡

Calacanis 在訪談裡用了一句話總結 VueBuds 的策略邏輯,值得逐字記下來:「Google Glass 十多年前推出的時候撞了一面文化牆,人們真的不想戴一個鏡頭在臉上。但我們想把同樣的視覺 AI 放進那個全球已經有十億人每天都在戴的裝置裡。」

這句話拆開來有兩層意思。第一層是文化接受度。臉上戴鏡頭從 2013 年 Google Glass 以來就是一個社交炸彈,「Glasshole」這個英語俚語就是那一代留下的詞彙。Snap Spectacles 試過、Magic Leap 試過、最近 Meta Ray-Ban 試過,銷量數字看起來不錯但實際使用率極低,大部分買家戴一陣子就收進抽屜。Kim 跟 Calacanis 的判斷是:這個社交摩擦不是品牌設計可以解的,是人類視覺溝通的本能反應,你看到對方臉上有鏡頭時的不安感是寫在生物學裡的,不會因為它變成 Ray-Ban 還是 Oakley 而消失。

第二層是裝置滲透率。全球真無線耳機在 2025 年的出貨量超過 4 億副,累計裝機量保守估計超過 12 億副,在通勤、運動、開會、走路的場景已經是「不戴反而怪」的狀態。把鏡頭塞進一個全人類已經接受的裝置,不需要重新教育市場、不需要重新建立社交禮儀、不需要重新做使用者習慣。VueBuds 賭的是:AI 視覺穿戴的勝負手不在於誰做出最酷的形狀,而在於誰用最低摩擦的方式把鏡頭送進使用者的日常。

實際應用的範圍也比表面上的「翻譯」廣很多。Calacanis 在訪談裡腦力激盪了好幾個方向。安全用途包括跑者後方視角(避免被自行車撞)、滑雪客的後方鏡頭(滑雪場最常見的車禍是上山者撞到下山者)、家長給小孩戴的家用兒童耳機(知道小孩走在哪裡、看到什麼、有沒有跟陌生人講話)。無障礙用途是 Kim 自己最在意的方向,他在訪談裡提到自己的奶奶有白內障無法看書,VueBuds 可以變成「真實世界的 Speechify」,把任何書本、藥袋、菜單即時讀出來。未來方向則是主動式 AI:不需要使用者問,系統主動提醒「你忘了帶鑰匙」、「這條街轉角有便利商店比較便宜」。

Calacanis 的 5,000 萬美元 acquihire 預言

訪談裡有一段對任何在做硬體穿戴新創的創業者來說很值得抄下來。Calacanis 對 Kim 的策略選擇直接給了商業判斷:不要試圖建立一個全新的耳機品牌跟 Bose、索尼、蘋果競爭,把 VueBuds 做成「參考設計 + 韌體授權」(reference design + firmware licensing),賣給現有 OEM 大廠;接下來 6 到 18 個月內,這三家裡會有一家直接把整支團隊買下,出價約 5,000 萬美元。

Calacanis 的論證邏輯是這樣的。耳機產業的市場佔有率前三名(蘋果、三星、索尼)加起來吃掉超過 60% 的銷量,這個市場格局已經非常成熟,新品牌要從零打到任何顯著的市佔率,至少需要五年跟數億美元行銷預算。但對 OEM 大廠來說,如果一支團隊在這個品類裡領先了 6 到 18 個月,讓他們可以推出「我們是第一個有 AI 視覺的耳機」,這個先發優勢值多少錢?Calacanis 的算盤是:如果 acquihire 之後讓 OEM 多賣 5% 的耳機(蘋果一年賣 1 億副 AirPods,5% 就是 500 萬副),邊際營收可能上看 10 億美元等級,5,000 萬美元的收購對價基本上是無痛的。

這個收購邏輯在過去五年的 AI 穿戴領域反覆出現。Apple 收購 Beddit(睡眠追蹤)、Google 收購 Fitbit、Meta 在 2014 年用 20 億美元收購 Oculus 都是同一個劇本。差別在於 VueBuds 的位置更微妙:它是學術論文,不是已經成形的公司,Kim 必須在「畢業之後直接成立公司」跟「直接接受教職並把技轉授權」之間做選擇。Calacanis 的建議是先用加速器(他暗示自己的 Launch)做一輪 1,000 副的開發者試產,讓社群開始用、開始寫 app,證明「AI 穿戴 app store」這個更大的論點,然後再決定要 IPO 還是被收購。

值得補充的是,在訪談錄製當下(2026 年 4 月底)為止,VueBuds 仍是純學術專案,Kim 沒有公開宣布成立公司、也沒有 OEM 公開表態收購。Calacanis 的預測是基於市場動力學的判斷,不是內部消息。但接下來 12 個月,只要看 Bose、索尼、蘋果這三家有任何一家發出「下一代耳機加入視覺 AI」的官方訊號,基本上就可以推回去看是不是這支團隊上船了。

我的觀察:臺灣品牌的下一輪機會,可能不是手機

把 VueBuds 這套故事拉到臺灣製造業視角,我想到的第一件事不是「臺灣有沒有可能做出 VueBuds」,而是臺灣品牌的下一輪 AI 穿戴機會,可能不在手機,而在這種「AI 從現有裝置長出眼睛」的微型化專案。

過去十年臺灣消費電子品牌幾乎全面從手機戰場撤退,HTC、ASUS 都退到專業利基市場。但耳機這條線臺灣還有真實能量:鴻海在 AirPods 組裝供應鏈、致伸在 ODM 耳機、瑞昱在藍牙音訊晶片、聯發科 Realtek 都有相關 IP。臺灣製造業沒有缺技術,缺的是「把技術組合成一個有國際辨識度的下一代消費電子論述」的能力。VueBuds 等級的微型鏡頭整合 + AI 視覺處理,從製造跟供應鏈角度看,臺灣是少數幾個可以一條龍做完的地方,差別只在我們的品牌商有沒有膽識在這個 5,000 萬美元的市場時機點下注。

第二件事是 AI 穿戴的「app store」這個論點對臺灣開發者社群是真實機會。耳機 + 視覺 AI 是一個過去從來不存在的應用類別,現在從零開始,沒有既得利益者、沒有平台稅、沒有審核霸王條款。如果 VueBuds 或類似形態的開源規格在接下來一年內出現,任何一個臺灣的小型開發團隊都可以做「給夜跑者的後方來車預警」、「給家長的兒童外出安全 AI」、「給長者的藥袋自動讀取」,直接賣到全球。問題是我們的開發者社群有沒有把目光從「做 LINE 機器人」、「做 Web SaaS」、「做 LLM 應用」拉到這個物理世界 + AI 結合的類別,這需要意識先轉過來。

第三件事是 Kim 在訪談最後講的:他的奶奶有白內障,他做這個專案的初心是讓奶奶可以「聽到」書本。這種「為了一個具體的人、解一個具體的問題」的研究動機,在 2026 年的 AI 領域反而越來越稀有。我們這幾年看到太多 AI 專案是「先有技術、再找應用場景」,結果做出一堆無趣的 chatbot 跟生成圖工具。VueBuds 提醒的是:如果你的研究或新創有一個你自己每天看到、被它困擾的真實人,你做出來的東西會自然有溫度,也會自然找到付費客戶。這條原則值得任何 2026 年想做 AI 創業的人重新拿出來掛在牆上。