ElevenLabs 執行長:未來不偵測 AI 造假,而是驗證「你是真人」
當 AI 生成的語音已經能完美複製人類的笑聲、停頓和情緒,我們還能分辨真假嗎?ElevenLabs 共同創辦人 Mati Staniszewski 提出了一個出乎意料的預測:未來我們不會偵測 AI,而是驗證真人。信任將成為最有價值的貨幣。

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的單集。
{{< youtube ZNzYN2jyVTU >}}
{{< spotify "episode/3Zq7vOW46nKNIgCLiirRP9" >}}
{{< apple-podcast "tw/podcast/elevenlabs-mati-staniszewski-why-voice-will-be-the/id1750736528?i=1000715272795" >}}

一年多前,ElevenLabs 辦了一場黑客松。其中有一組開發者讓兩個 AI Agent 互相通話。接下來發生的事情讓所有人都沒料到:兩個 Agent 很快偵測到對方也是 AI,然後它們自動切換到一種更高效率的非語音傳輸方式,放棄了人類的「說話」這個介面。它們判斷,對 AI 來說,語音不是最佳的溝通方式。
ElevenLabs 共同創辦人兼執行長斯坦尼謝夫斯基(Mati Staniszewski)在 Sequoia Capital 的 AI Ascent 2026 活動上分享了這個故事。對一家靠語音 AI 起家、估值 110 億美元的公司來說,兩個 AI 自行拋棄語音的畫面有點諷刺。但 Staniszewski 從這裡看到的不是威脅,而是一個關於「信任」的根本問題:當 AI 的語音已經跟真人無法區分,我們該怎麼確認跟我們說話的到底是誰?
AI 的聲音已經跨過「恐怖谷」
要理解這個問題有多急迫,先看看語音 AI 在過去幾年的進展。ElevenLabs 的模型發展軌跡就是一個很好的縮影。最早,他們做到了基本的語音複製,Staniszewski 回憶,第一次聽到 AI 複製自己聲音的時候,直覺反應是「我的聲音才沒那麼難聽」。但把 AI 版和真實版放在一起對比,確實是同一個聲音。
然後他們突破了「笑」這個關卡。不是預錄的笑聲效果音,而是模型學會在對話的適當時機、用自然的方式笑出來。接著是停頓、猶豫、語助詞這些「不完美」的元素,恰恰是這些不完美讓語音聽起來像真人。這個成果讓他們登上了 Hacker News 首頁。
跨語言的突破更令人驚訝。阿根廷總統米雷伊(Javier Milei)的西班牙語演講被轉換成英文,但保留了他本人的聲音特徵和情緒張力。烏克蘭總統澤倫斯基(Volodymyr Zelenskyy)的演說也做了同樣的處理。最近一個讓 Staniszewski 印象深刻的案例是好萊塢演員馬修麥康納(Matthew McConaughey),他用 ElevenLabs 的技術把自己的電子報內容轉成西班牙語和葡萄牙語語音。他的家人原本只能聽他說英文,那是第一次聽到「他」用他們的母語說話。
到了 2026 年,語音合成技術已經跨過了所謂的「恐怖谷」。一般人在日常情境下,幾乎無法分辨 AI 生成的語音和真人錄音。這是一項了不起的技術成就,同時也是一個巨大的社會挑戰。
信任反轉:從「找出假的」到「證明真的」
面對合成語音越來越逼真的現實,目前業界的主流做法是「偵測 AI」。各種 AI 語音偵測工具試圖分辨一段音訊是人類錄製的還是 AI 生成的。但 Staniszewski 認為這條路走不通,或者說,它很快就會碰到天花板。
他提出的替代框架是一個根本性的反轉:與其花力氣偵測什麼是假的,不如專注於驗證什麼是真的。未來的世界裡,我們需要區分兩種互動。一種是經過加密簽章或浮水印認證的「真人語音」,這代表說話的人已經通過了某種身分驗證程序,你可以確信這是真人。另一種是其他所有語音,而預設立場是:除非被驗證為真,否則假設它是 AI 生成的。
這跟今天的邏輯完全相反。今天我們預設所有語音都是真人,只有在懷疑的時候才去檢查是否為 AI。Staniszewski 認為,這個預設立場在未來幾年內就會翻轉。就像我們今天看到一封沒有驗證標記的電子郵件會自動懷疑它是垃圾信一樣,未來聽到一段沒有認證標記的語音,我們也會自動假設它不是真人。
情緒智慧:讓 AI 更有用,也更難辨別
讓這個信任問題更加複雜的是,ElevenLabs 自己正在推動的下一代技術:情緒智慧。Staniszewski 描述的不只是讓 AI 用正確的語氣說話,而是讓它能感知對方的情緒狀態並即時調整回應方式。當你焦慮時,Agent 會用舒緩的語氣安撫你。當你興奮時,它會跟上你的能量。當你說話放慢,它也會配合你的節奏。
這種技術在應用層面有巨大的價值。想像一個心理諮詢熱線的 AI,能在凌晨三點用適當的同理心回應一個焦慮的來電者。或是一個教育 Agent,能根據學生的挫折感調整教學節奏。又或者在銷售場景中,AI 不只說出正確的話,還能在適當的時機停頓、在關鍵時刻加強語氣。Staniszewski 甚至提到,未來語音 Agent 可能需要具備「打斷人」的能力,就像一個有經驗的談判者會在策略性的時機切入對話。
但同一套技術也讓「分辨真假」變得幾乎不可能。如果 AI 連你的情緒都能精準回應,如果它的停頓、猶豫、笑聲都恰到好處,你還有什麼線索可以判斷對面是真人還是機器?
當你的 Agent 代替你打電話
Staniszewski 描繪的近期應用場景也凸顯了信任的重要性。他預見每個人都會有自己的語音 Agent,代替你打電話訂餐廳、跟醫療院所確認預約、處理各種日常事務。當你的 Agent 代表你打電話時,接電話的一方怎麼知道這真的是你授權的?怎麼知道這個 Agent 有權代表你做決定?
這就是為什麼 Staniszewski 認為「信任」會成為未來最有價值的貨幣。ElevenLabs 正在建構的系統會包含多層驗證機制:對「真人語音」的加密認證,對「已授權 AI」的浮水印標記,然後其他所有東西都被歸類為不可信來源。這種三層架構跟今天的信任模型完全不同,但在合成媒體無所不在的世界裡,它可能是唯一可行的方案。
語音 AI 的快速進展把我們帶到了一個奇特的十字路口。創造這些技術的公司,同時也最清楚這些技術會帶來什麼問題。Staniszewski 的坦率令人印象深刻。他沒有迴避合成語音可能被濫用的風險,也沒有把責任推給監管機關。他的論點是,既然「偵測 AI」注定會成為一場追不上的軍備競賽,不如從根本上重建信任的基礎設施。不是去證明什麼是假的,而是去驗證什麼是真的。這個框架的切換聽起來很簡單,但它暗示的是整個數位身分認證體系的重新設計。而這件事,恐怕不是任何一家公司能獨自完成的。