從甘道夫的聲音到 110 億估值:a16z 合夥人解密 ElevenLabs 投資決策

a16z 合夥人 Jennifer Li 回顧從 A 輪就開始投資 ElevenLabs 的決策過程。從跨越語音的恐怖谷到語音 Agent 爆發,她揭示了 AI 時代創辦人最重要的特質:技術只佔六成,產品力和拼圖式策略才是致勝關鍵。

從甘道夫的聲音到 110 億估值:a16z 合夥人解密 ElevenLabs 投資決策

本文整理自 GTMnow Podcast 2026 年 5 月播出的單集,同步發布於 AI + a16z 頻道。

{{< apple-podcast "tw/podcast/ai-infrastructure-distribution-and-the-next/id1740178076?i=1000767360993" >}}


封面圖

「我們第一次看 ElevenLabs 的 demo,他們用甘道夫的聲音來唸一本書。天啊,這真的太像了,而且有對的停頓、對的重音、對的語調。超級引人入勝。」

Andreessen Horowitz(a16z)合夥人 Jennifer Li 回憶起第一次看到 ElevenLabs 產品時的反應,語氣中帶著當初的興奮。那個「holy shit」的瞬間,讓她決定主導 ElevenLabs 從 A 輪一路投到 C 輪,並在 D 輪繼續跟投。如今 ElevenLabs 的估值已經達到 110 億美元,是 a16z 基礎設施基金最具代表性的投資之一。

Jennifer Li 在加入 a16z 之前,曾在 AppDynamics(被 Cisco 以 37 億美元收購)和 Solvvy(被 Zoom 收購)擔任產品負責人。這些經歷讓她對「技術何時從 demo 變成真正的產品」有敏銳的判斷力。在 GTMnow Podcast 的訪談中,她不只分享了 ElevenLabs 的投資故事,更拆解了她觀察到的 AI 時代最佳創辦人特質。

恐怖谷終於被跨越了

Jennifer Li 的團隊追蹤合成語音技術很多年了,但一直沒有動手投資。原因很簡單:之前所有的合成語音聽起來都像機器人。你可以用它來自動朗讀一篇論文,但沒有人會想聽超過三分鐘,因為那個聲音沒有情感、沒有節奏、沒有溫度。它「能用」,但不「好用」。

ElevenLabs 的 demo 打破了這個僵局。甘道夫的聲音不只是像,它還有對的停頓,知道什麼時候該加重語氣,什麼時候該放慢速度。這是第一次,合成語音不再讓人感到不安(也就是「跨越恐怖谷」),而是真正具有感染力和吸引力。Jennifer Li 馬上意識到,這代表所有需要語音的創意應用場景,從 Podcast 製作、有聲書到影片配音,全部要被重新定義。

她的投資邏輯背後還有一個更大的判斷:創意和媒體類的 AI 應用,天然比其他類型的 AI 應用更容易成功。為什麼?因為它們不需要「正確」。在法律、醫療或金融領域,AI 如果出錯,後果可能很嚴重。但在創意領域,模型的「不完美」有時候反而被視為一種創意表現。六根手指的 AI 生成圖片確實是 bug,但在某些藝術創作的語境下,這種不完美的空間反而讓使用者更願意擁抱 AI 工具。

語音 Agent:沒人預見的爆發

Jennifer Li 坦承,當她在 2022 年投資 ElevenLabs 的 A 輪時,腦中想的是創意應用場景。她完全沒有預見到語音 Agent 會成為 ElevenLabs 最快起飛的業務方向。

2024 年前後,語音 Agent 突然爆發。客服中心、前台接待、電話預約,這些場景有幾個共同特徵:工作內容重複、使用自然語言、不需要太多專業術語。這代表語音 Agent 可以在不具備深度專業知識的情況下,流暢地完成對話任務。語言模型已經夠好了,能處理大部分的日常對話邏輯;ElevenLabs 的語音模型讓這些 Agent 的聲音聽起來像真人;兩者結合,就創造了一個立即可商用的解決方案。

a16z 也投資了 Decagon,一家專注客服領域的 AI 公司,而 Decagon 的語音能力正是建立在 ElevenLabs 的模型之上。Jennifer Li 認為,語音 Agent 之所以成為 AI Agent 中最先起飛的品類,是因為它的應用場景最直觀、導入門檻最低、投資報酬最容易被量化。當一個企業可以用 AI 處理客服中心的大部分通話,節省的成本幾乎是立竿見影的。

最好的創辦人跑在模型前面

Jennifer Li 在訪談中提出了一個她觀察到的頂尖創辦人特質:他們不是等模型能力到位了才開始做產品,而是預判模型三個月、六個月後能做到什麼,然後現在就把那個功能用「拼圖式」的方式做出來,交到使用者手中。

「拼圖式」的意思是,如果使用者急需某個功能,但底層模型還無法完美支援,最好的創辦人會用產品設計來補足模型的不足。可能是加上一些規則邏輯,可能是用 UI 引導使用者避開模型的弱項,也可能是用多個較小的模型組合來近似最終效果。等到模型能力追上來之後,再用真正的模型替換掉那些臨時的補丁。這讓他們比競爭對手早了好幾個月進入市場。

ElevenLabs 的共同創辦人 Mati Staniszewski 和 Piotr Dabkowski 就是這種類型的人。Jennifer Li 提到,他們在自家的 Podcast 上詳細分享過這個策略:如何在研究端推進突破的同時,用產品功能去「先交貨」,讓使用者提前體驗到價值。這不是偷工減料,而是一種對模型發展軌跡的深度理解,加上產品設計的巧妙運用。

技術只佔六成

很多技術背景的創辦人有一個根深蒂固的信念:只要技術最好,就會贏。Jennifer Li 直接挑戰了這個觀點。「技術只佔了六成,也許是一半,」她說。「你還是需要把它包裝成一個容易使用、容易理解的產品。因為這些模型確實很強大,但有時候它們需要一些護欄和引導,才能把最好的品質呈現給使用者。」

ElevenLabs 的創辦人同時具備技術天賦和產品直覺,而且他們對問題有深刻的個人連結。他們的創業動機來自一個很具體的痛點:看了太多配音糟糕的外國電影,整部片只有一個單調的聲音在唸旁白,完全抹殺了原本的情感和戲劇張力。這不是一個抽象的「市場機會」,而是他們個人想要解決的問題。Jennifer Li 認為,這種發自內心的使命感,是支撐創辦人在長期路途中不放棄的關鍵燃料。

同樣重要的是 go-to-market 的嚴肅態度。ElevenLabs 不只是一家做好技術就等客戶上門的公司。他們從一開始就同時建設開發者 API、消費者創意工作室和企業語音 Agent 平台三條產品線,讓自己能同時捕獲開發者生態和企業市場。Jennifer Li 強調,很多技術底子很強的 AI 公司敗在了 go-to-market 上,因為他們低估了「讓對的人知道你的存在,並且養成使用習慣」的難度。

AI 不會取代創意,會民主化創意

訪談的最後,Jennifer Li 分享了她對 AI 與人類創意共存的看法。語氣從投資人切換成了一個真正的 AI 工具愛好者。

「我不認為 AI 會取代導演、作家,或任何腦中有清晰願景的人。創意本質上是人類的表達和意圖。」她認為 AI 工具做的事情不是替代創意,而是把創意的門檻大幅降低。過去,製作一支專業品質的短片需要十幾個人的團隊和幾個月的時間。現在,一到兩個人的工作室就能做出同等水準的作品。Jennifer Li 提到 a16z 已經在支持幾位這樣的創作者,親眼見證他們的 AI 輔助創作流程如何改變了內容生產的經濟學。

她也觀察到,AI 創意工具的品質在最近三年有了質的飛躍。過去這些工具只適合消費者和進階使用者做一些有趣但不精緻的內容。現在,模型的品質已經達到了專業水準,可以為奢侈品牌做品牌故事影片,可以維持複雜作品的風格一致性,可以在影像、音訊和影片模型之間組合出完整的工作流程。

Jennifer Li 用了一個有趣的個人例子來收尾。她是《ONE PIECE》(航海王)的忠實粉絲。Netflix 的真人版每隔幾年才出八集,但原作漫畫的內容量大到「整套書可以繞地球一圈」。有了現在這些 AI 創意工具,是不是可以加速把這些精采的故事用真人影像呈現出來?不用再等好幾年,就能看到更多集?這個例子聽起來輕鬆,但它指向一個嚴肅的命題:AI 讓「把腦中的故事變成看得到、聽得到的作品」這件事,變得前所未有地容易。

她留給創辦人和經營者的一句話是:「讓這些工具成為你的朋友,把它變成習慣。」只有真正在日常中使用 AI 工具的人,才能發現那些新的可能性,而那些可能性正是下一個大機會所在。

我的觀察:產品力是 AI 時代最被低估的能力

Jennifer Li 的「技術只佔六成」這句話,對臺灣的 AI 創業圈來說可能不太舒服。臺灣有大量優秀的工程人才,很多 AI 新創的技術底子紮實,但在產品設計和市場推廣上往往是弱項。

ElevenLabs 的「拼圖式」策略特別值得學習。它的本質是:不要等所有技術問題都解決了才推產品,而是用產品設計的巧思去彌補當下的技術限制。這需要創辦人同時理解技術的發展軌跡和使用者的真實需求,然後在兩者之間找到一個「現在就能交付價值」的交集。這種能力不是光靠寫更多程式碼就能培養的,它需要持續和使用者互動、觀察他們的行為、理解他們真正在乎的是什麼。

Jennifer Li 從 ElevenLabs 的投資經驗中提煉出的訊息很清楚:在 AI 時代,技術是入場券,但產品力和 go-to-market 才是贏的關鍵。光有好技術的公司不缺,能把好技術變成好產品、再把好產品變成品類代名詞的公司,少之又少。