AI 產業動態

「AI 的瓶頸不是智慧，是溝通」：ElevenLabs 要讓語音成為 AI 的終極介面

ElevenLabs 共同創辦人兼執行長 Mati Staniszewski 在 Sequoia AI Ascent 2026 分享語音 AI 的未來。從解決波蘭電影配音的荒謬痛點出發，這家估值 110 億美元的公司正在把語音從「輸出管道」變成人與 AI 互動的核心介面。

2026 年 5 月 12 日 · 來源： Sequoia Capital AI Ascent 2026

「AI 的瓶頸不是智慧，是溝通」：ElevenLabs 要讓語音成為 AI 的終極介面

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的單集。

{{< apple-podcast "tw/podcast/elevenlabs-mati-staniszewski-why-voice-will-be-the/id1750736528?i=1000715272795" >}}

封面圖

想像你在看一部好萊塢大片，所有角色的對白，不管是男是女、是英雄還是反派，全部由同一個人用刻意壓平的語調念出來。你得靠自己去「腦補」每個角色的情緒。這不是什麼前衛藝術手法，而是波蘭觀眾幾十年來看外語電影的日常。ElevenLabs 共同創辦人兼執行長斯坦尼謝夫斯基（Mati Staniszewski）在 Sequoia Capital 的 AI Ascent 2026 活動上回憶，正是這個從小長大的荒謬體驗，讓他和高中同窗達布科夫斯基（Piotr Dabkowski）意識到音訊領域存在一個被嚴重忽視的巨大缺口。兩人在 2022 年創立了 ElevenLabs，目標是讓每個人都能用任何語言說話，同時保留原始的情緒和語調。

在所有人都忽略的角落起步

2022 年創業的時機聽起來像是運氣，但 Staniszewski 認為這更像是策略選擇。當時整個科技圈都在追加密貨幣和元宇宙，即使有人開始投入 AI，焦點也集中在文字和影像模型上。音訊被視為冷門中的冷門，研究人才稀少，幾乎沒有競爭者。

這個「冷門」反而給了 ElevenLabs 幾個關鍵優勢。音訊模型的規模比文字和影像模型小得多，不需要一開始就砸數十億美元買算力。團隊可以專注在兩件事上：怎麼轉錄大量的音訊資料，以及怎麼標註這些資料中的情緒和語調。這兩件事都需要人力和專業，但不需要超級電腦。

ElevenLabs 的營運方式也跟多數前沿模型公司截然不同。他們從第一天起就是全遠端團隊，透過掃描 GitHub 上的研究成果來找人，看的是作品而非學歷或地理位置。更關鍵的是，他們選擇快速變現。Staniszewski 的邏輯很直接：有營收就能自主決定研發方向，不用完全仰賴外部資金。這種做法讓公司在初期就維持了健康的利潤率。

到了 2026 年，這個策略的成效已經非常明確。ElevenLabs 在 2 月完成了由 Sequoia 領投的 5 億美元 D 輪募資，估值達到 110 億美元。年度經常性收入在第一季突破 5 億美元，41% 的《財星》500 大企業是他們的客戶。而整個公司的員工數還是只有幾百人。

從文字轉語音到「什麼都能做的聲音引擎」

ElevenLabs 的第一個產品是文字轉語音模型，但它跟以往的 TTS 有本質上的不同。這個模型能理解文字的上下文語境，自動判斷應該用什麼情緒和語氣。開心的句子聽起來就是開心的，對話段落有對話的節奏。Staniszewski 記得第一個讓團隊震撼的時刻，是模型學會了「笑」。不是那種機械式的效果音，而是真正融入對話脈絡的笑聲。這個突破讓他們登上了 Hacker News 首頁。

後來，他們發現要真正解決跨語言配音的問題，光有 TTS 遠遠不夠。你還需要語音轉文字來聽懂原始語音，還需要翻譯。於是 STT 和翻譯模型陸續加入產品線。阿根廷總統米雷伊（Javier Milei）的演講被翻譯成英文並保留原始聲音特徵的影片在網路爆紅，就是這套系統的代表作。後來烏克蘭總統澤倫斯基（Volodymyr Zelenskyy）、好萊塢演員馬修乃麥乃康納（Matthew McConaughey）的跨語言語音也相繼出現。麥康納的家人第一次聽到他用西班牙語和葡萄牙語說話，而且聽起來就是他本人的聲音。

更大的轉折發生在推理模型開始成熟的時候。當 AI 的推理速度和品質同時達到可以支撐即時互動的門檻，ElevenLabs 順勢推出了語音 Agent 引擎。他們把所有即時對話需要的技術都打包進去：輪替說話機制、語音串流、協調引擎。最近，他們又切入音訊領域最困難的一塊，音樂生成。Staniszewski 的邏輯是，既然已經能解決語音的情緒表達，音樂就是同一條路上的自然延伸。

語音 Agent 的真正戰場不在客服

所有人都在談用語音 Agent 取代客服電話樹，但 Staniszewski 認為這只是冰山一角。真正被忽略的機會在三個方向。

第一是銷售。外送平台 Deliveroo 已經在用語音 Agent 打電話給合作餐廳確認營業時間，再自動更新外送系統。德國電信讓語音 Agent 處理客戶的產品諮詢和購買意向。ElevenLabs 自己也在用，而且發現了一個意外的收穫：客戶跟語音 Agent 對話時，會自然地多說很多資訊，包括使用場景、遇到的問題、正在評估哪些競品。這些東西填表格絕對拿不到。

第二是政府服務。烏克蘭政府部署了語音 Agent，讓公民透過電話取得前線資訊、教育資源和安全指南。Staniszewski 去烏克蘭實地考察過這個系統，他認為烏克蘭在數位政府服務上是全球最前沿的國家之一。考量到戰爭期間前線地區的網路和裝置條件有限，語音電話成了最可靠的資訊傳遞管道。

第三，也是他最興奮的方向：教育。想像你隨時可以戴上耳機，跟費曼（Richard Feynman）學物理。線上教育平台 Masterclass 已經在做這件事。他們推出了互動版課程，讓名廚 Gordon Ramsay 在你做菜時即時指導你（對，他會罵人），或讓前 FBI 首席談判專家 Chris Voss 跟你進行即時談判實戰練習。這不再是被動的影片課程，而是 24 小時隨時待命的專家教練。

下一步：AI 要學會「讀空氣」

目前語音 AI 已經能做到正確的語氣和情緒表達，但 Staniszewski 認為真正的質變是「情緒智慧」。他描述的不是更精準的語音合成，而是一種能理解對方情緒狀態並即時調整回應方式的能力。當使用者焦慮的時候，Agent 會自動切換成舒緩、安撫的語氣。當使用者興奮的時候，它會跟上那個節奏。當使用者說話變慢，它也會放慢速度。這種能力目前還沒有做到量產等級，但 Staniszewski 說他們內部已經看到可行的研究路徑。

再往前看，ElevenLabs 正在研究他們稱為「音訊通用智慧」（Audio General Intelligence）的概念。具體來說，就是讓模型在同一個語音串流中，能從敘述無縫切換到歌唱，用同一個聲音、同一種連貫的表達。你可以想像一個 AI 在講故事講到高潮時，自然地唱起一段歌，然後繼續講。這在技術上極其困難，因為說話和唱歌是兩套完全不同的聲學模型，但 Staniszewski 相信這在「非常、非常近的未來」就能實現。

回到最根本的問題：為什麼要這麼執著於語音？Staniszewski 的回答很明確。未來我們身邊會有各式各樣的裝置和機器人，AI 的智慧水準會持續提升，但真正的瓶頸會出現在我們如何跟那些智慧溝通。打字太慢，螢幕太小。語音和視覺才是真正能釋放 AI 價值的介面。這就是為什麼 ElevenLabs 要把語音做到極致：不只是讓 AI 會說話，而是讓它能像人一樣說話，有情緒、有節奏、有溫度。