「AI 的瓶頸不是智慧,是溝通」:ElevenLabs 要讓語音成為 AI 的終極介面
ElevenLabs 共同創辦人兼執行長 Mati Staniszewski 在 Sequoia AI Ascent 2026 分享語音 AI 的未來。從解決波蘭電影配音的荒謬痛點出發,這家估值 110 億美元的公司正在把語音從「輸出管道」變成人與 AI 互動的核心介面。

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的單集。
{{< youtube ZNzYN2jyVTU >}}
{{< spotify "episode/3Zq7vOW46nKNIgCLiirRP9" >}}
{{< apple-podcast "tw/podcast/elevenlabs-mati-staniszewski-why-voice-will-be-the/id1750736528?i=1000715272795" >}}

想像你在看一部好萊塢大片,所有角色的對白,不管是男是女、是英雄還是反派,全部由同一個人用刻意壓平的語調念出來。你得靠自己去「腦補」每個角色的情緒。這不是什麼前衛藝術手法,而是波蘭觀眾幾十年來看外語電影的日常。ElevenLabs 共同創辦人兼執行長斯坦尼謝夫斯基(Mati Staniszewski)在 Sequoia Capital 的 AI Ascent 2026 活動上回憶,正是這個從小長大的荒謬體驗,讓他和高中同窗達布科夫斯基(Piotr Dabkowski)意識到音訊領域存在一個被嚴重忽視的巨大缺口。兩人在 2022 年創立了 ElevenLabs,目標是讓每個人都能用任何語言說話,同時保留原始的情緒和語調。
在所有人都忽略的角落起步
2022 年創業的時機聽起來像是運氣,但 Staniszewski 認為這更像是策略選擇。當時整個科技圈都在追加密貨幣和元宇宙,即使有人開始投入 AI,焦點也集中在文字和影像模型上。音訊被視為冷門中的冷門,研究人才稀少,幾乎沒有競爭者。
這個「冷門」反而給了 ElevenLabs 幾個關鍵優勢。音訊模型的規模比文字和影像模型小得多,不需要一開始就砸數十億美元買算力。團隊可以專注在兩件事上:怎麼轉錄大量的音訊資料,以及怎麼標註這些資料中的情緒和語調。這兩件事都需要人力和專業,但不需要超級電腦。
ElevenLabs 的營運方式也跟多數前沿模型公司截然不同。他們從第一天起就是全遠端團隊,透過掃描 GitHub 上的研究成果來找人,看的是作品而非學歷或地理位置。更關鍵的是,他們選擇快速變現。Staniszewski 的邏輯很直接:有營收就能自主決定研發方向,不用完全仰賴外部資金。這種做法讓公司在初期就維持了健康的利潤率。
到了 2026 年,這個策略的成效已經非常明確。ElevenLabs 在 2 月完成了由 Sequoia 領投的 5 億美元 D 輪募資,估值達到 110 億美元。年度經常性收入在第一季突破 5 億美元,41% 的《財星》500 大企業是他們的客戶。而整個公司的員工數還是只有幾百人。
從文字轉語音到「什麼都能做的聲音引擎」
ElevenLabs 的第一個產品是文字轉語音模型,但它跟以往的 TTS 有本質上的不同。這個模型能理解文字的上下文語境,自動判斷應該用什麼情緒和語氣。開心的句子聽起來就是開心的,對話段落有對話的節奏。Staniszewski 記得第一個讓團隊震撼的時刻,是模型學會了「笑」。不是那種機械式的效果音,而是真正融入對話脈絡的笑聲。這個突破讓他們登上了 Hacker News 首頁。
後來,他們發現要真正解決跨語言配音的問題,光有 TTS 遠遠不夠。你還需要語音轉文字來聽懂原始語音,還需要翻譯。於是 STT 和翻譯模型陸續加入產品線。阿根廷總統米雷伊(Javier Milei)的演講被翻譯成英文並保留原始聲音特徵的影片在網路爆紅,就是這套系統的代表作。後來烏克蘭總統澤倫斯基(Volodymyr Zelenskyy)、好萊塢演員馬修乃麥乃康納(Matthew McConaughey)的跨語言語音也相繼出現。麥康納的家人第一次聽到他用西班牙語和葡萄牙語說話,而且聽起來就是他本人的聲音。
更大的轉折發生在推理模型開始成熟的時候。當 AI 的推理速度和品質同時達到可以支撐即時互動的門檻,ElevenLabs 順勢推出了語音 Agent 引擎。他們把所有即時對話需要的技術都打包進去:輪替說話機制、語音串流、協調引擎。最近,他們又切入音訊領域最困難的一塊,音樂生成。Staniszewski 的邏輯是,既然已經能解決語音的情緒表達,音樂就是同一條路上的自然延伸。
語音 Agent 的真正戰場不在客服
所有人都在談用語音 Agent 取代客服電話樹,但 Staniszewski 認為這只是冰山一角。真正被忽略的機會在三個方向。
第一是銷售。外送平台 Deliveroo 已經在用語音 Agent 打電話給合作餐廳確認營業時間,再自動更新外送系統。德國電信讓語音 Agent 處理客戶的產品諮詢和購買意向。ElevenLabs 自己也在用,而且發現了一個意外的收穫:客戶跟語音 Agent 對話時,會自然地多說很多資訊,包括使用場景、遇到的問題、正在評估哪些競品。這些東西填表格絕對拿不到。
第二是政府服務。烏克蘭政府部署了語音 Agent,讓公民透過電話取得前線資訊、教育資源和安全指南。Staniszewski 去烏克蘭實地考察過這個系統,他認為烏克蘭在數位政府服務上是全球最前沿的國家之一。考量到戰爭期間前線地區的網路和裝置條件有限,語音電話成了最可靠的資訊傳遞管道。
第三,也是他最興奮的方向:教育。想像你隨時可以戴上耳機,跟費曼(Richard Feynman)學物理。線上教育平台 Masterclass 已經在做這件事。他們推出了互動版課程,讓名廚 Gordon Ramsay 在你做菜時即時指導你(對,他會罵人),或讓前 FBI 首席談判專家 Chris Voss 跟你進行即時談判實戰練習。這不再是被動的影片課程,而是 24 小時隨時待命的專家教練。
下一步:AI 要學會「讀空氣」
目前語音 AI 已經能做到正確的語氣和情緒表達,但 Staniszewski 認為真正的質變是「情緒智慧」。他描述的不是更精準的語音合成,而是一種能理解對方情緒狀態並即時調整回應方式的能力。當使用者焦慮的時候,Agent 會自動切換成舒緩、安撫的語氣。當使用者興奮的時候,它會跟上那個節奏。當使用者說話變慢,它也會放慢速度。這種能力目前還沒有做到量產等級,但 Staniszewski 說他們內部已經看到可行的研究路徑。
再往前看,ElevenLabs 正在研究他們稱為「音訊通用智慧」(Audio General Intelligence)的概念。具體來說,就是讓模型在同一個語音串流中,能從敘述無縫切換到歌唱,用同一個聲音、同一種連貫的表達。你可以想像一個 AI 在講故事講到高潮時,自然地唱起一段歌,然後繼續講。這在技術上極其困難,因為說話和唱歌是兩套完全不同的聲學模型,但 Staniszewski 相信這在「非常、非常近的未來」就能實現。
回到最根本的問題:為什麼要這麼執著於語音?Staniszewski 的回答很明確。未來我們身邊會有各式各樣的裝置和機器人,AI 的智慧水準會持續提升,但真正的瓶頸會出現在我們如何跟那些智慧溝通。打字太慢,螢幕太小。語音和視覺才是真正能釋放 AI 價值的介面。這就是為什麼 ElevenLabs 要把語音做到極致:不只是讓 AI 會說話,而是讓它能像人一樣說話,有情緒、有節奏、有溫度。