400 人做到 5 億美元 ARR:ElevenLabs 的精實作戰手冊
多數前沿 AI 公司先燒數十億再談獲利,ElevenLabs 反其道而行。共同創辦人 Mati Staniszewski 在 Sequoia AI Ascent 2026 揭露他們如何用不到 400 人、10 人以下的扁平小隊、和嵌入每個部門的工程師,撐起 5 億美元年營收和 110 億估值。

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的單集。
{{< youtube ZNzYN2jyVTU >}}
{{< spotify "episode/3Zq7vOW46nKNIgCLiirRP9" >}}
{{< apple-podcast "tw/podcast/elevenlabs-mati-staniszewski-why-voice-will-be-the/id1750736528?i=1000715272795" >}}

在前沿 AI 的世界裡,有一種公認的「正確做法」:先募幾十億美元,蓋超級運算叢集,燒錢訓練模型,再慢慢想怎麼賺錢。ElevenLabs 幾乎把這套劇本反過來走。他們先找到客戶、先有營收、先維持利潤,然後才在需要更大規模訓練時引入外部資金。2026 年第一季,這家語音 AI 公司的年度經常性收入突破 5 億美元,估值 110 億美元,員工還不到 500 人。共同創辦人兼執行長斯坦尼謝夫斯基(Mati Staniszewski)在 Sequoia 的 AI Ascent 2026 活動上,拆解了他們的經營邏輯。
冷門賽道上的先發優勢
2022 年 ElevenLabs 成立時,AI 領域的熱錢幾乎全部流向文字和影像模型。音訊被視為小眾中的小眾,研究人才屈指可數,也沒有什麼大公司認真投入。Staniszewski 回憶當時的氛圍:整個產業還在追加密貨幣和元宇宙,連 AI 本身都還沒成為主流話題。
但這個「沒人看」的局面恰好創造了一組獨特的條件。音訊模型的參數規模比文字和影像模型小得多,訓練所需的算力門檻相對低。這意味著你不需要在第一天就拿到幾億美元的投資才能開工。ElevenLabs 的早期策略因此非常清晰:用有限的資源先做出能賣的產品,用營收養活研發,維持健康的利潤率來確保獨立性。
這個策略成立的前提是團隊夠強。Staniszewski 和共同創辦人兼技術長達布科夫斯基(Piotr Dabkowski)選擇從一開始就全面遠端,不限地理位置。他們的招募方法很直接:去 GitHub 上掃研究者的公開成果,看到好的就主動聯繫,分享 ElevenLabs 的語音樣本來說服對方加入。這套方法讓他們在全球範圍內組建了一支頂尖的音訊研究團隊,而不是被倫敦或舊金山的人才市場綁死。
隨著野心增長,他們確實也引入了大量外部資金。2026 年 2 月的 D 輪由 Sequoia 領投 5 億美元,投資陣容包括 a16z、NVIDIA 旗下的 NVentures、BlackRock 等機構。但 Staniszewski 強調,這筆錢是用來「加速」而非「救命」。公司在拿到錢之前就已經是可獲利的狀態。
每個團隊都不超過 10 人
ElevenLabs 內部有一個不成文的規矩:不管是研究團隊、產品團隊、甚至業務和法務團隊,每個小隊的人數都控制在 10 人以下。大部分主管直接帶 10 個左右的人,沒有中間管理層。公司也刻意不設頭銜,升遷看的是影響力而非年資。Staniszewski 的說法是,這讓公司即使超過 400 人,運作起來還是像一群小型自治的新創,而不是傳統大企業。
但真正特別的是他們處理「非技術部門」的方式。ElevenLabs 的人資、法務、業務等每個非技術團隊裡面,都有至少一名工程師。這些工程師不是去寫產品程式碼的,而是幫助該部門自動化工作流程、建立內部工具、提升效率。
Staniszewski 舉了法務團隊的例子。做 B2B 銷售的人都知道,跟客戶談合約是一場永無止境的拉鋸戰:對方要求免責條款,你的法務說不行;對方要降低責任上限,你的銷售說不能丟這個客戶。過去 Staniszewski 自己經常被拉進這些討論,因為需要有人做最後裁決。
他們的解法是建立一套自動化的「評分系統」。每個客戶依據規模大小,會得到一定的「讓步點數」。銷售可以在這個額度內自行決定給出哪些條款,不需要層層上報。整套系統由嵌入法務團隊的工程師建立和維護,現在完全自動運作。這種做法的好處不只是節省時間,更重要的是它讓法務議題不會成為銷售流程的瓶頸。
VibeCoding 時代的品質控管
Staniszewski 提到一個很多公司正在經歷的現象:非技術人員開始用 AI 工具寫程式,也就是業界戲稱的「VibeCoding」。在 ElevenLabs 這種每個部門都有工程師的環境裡,這件事的好處特別明顯,因為大量日常的自動化需求可以更快被解決。
但他也點出了一個被低估的風險。當非技術人員用 AI 生成程式碼時,誰來做品質把關?程式碼的安全性、基礎架構的影響、與現有系統的相容性,這些都需要專業判斷。在工程團隊內部,這種審查是自然流程的一部分。但在非工程團隊,如果沒有技術人員坐鎮,VibeCoding 產出的東西很容易出問題。這也是為什麼 ElevenLabs 堅持在每個團隊都放工程師的原因之一:不是要取代 AI 工具的便利性,而是確保有人能對產出的品質負責。
千人聲音教練:資料標註是藝術,不是苦力
在語音 AI 領域,資料的品質比數量重要得多。Staniszewski 引用了 NVIDIA 執行長黃仁勳(Jensen Huang)對他們的評價:語音轉文字是技術,文字轉語音是藝術。
要讓 AI 生成的語音具備真正的情緒深度,光靠網路上大量抓取的音訊資料是不夠的。你必須理解音訊的「怎麼說」,而不只是「說了什麼」。ElevenLabs 為此組建了一支超過 1,000 人的標註團隊,成員包括聲音教練、音樂家和表演藝術家。他們的工作不只是聽寫內容,而是標記每一段音訊中的情緒、停頓、不完美的地方、音樂性。
Staniszewski 坦言,這是一筆不會在短期內看到回報的投資。這些標註資料在未來 6 到 12 個月內不一定能直接提升產品,但他們押注在 12 到 24 個月的時間尺度上,這些精細的情緒標註會成為競爭對手難以複製的護城河。單純靠規模堆資料的做法,永遠達不到這個精度。
護城河不是模型,是整個生態系
被問到什麼是 ElevenLabs 真正的護城河時,Staniszewski 的回答出乎意料地不以模型為中心。他認為模型只是整個技術堆疊的一部分,而真正的價值在於你如何把模型嵌入使用者的工作流程。
具體來說,這包括電話系統的串接(讓語音 Agent 能透過傳統電話線路溝通)、即時協調引擎(管理對話中的輪替和打斷)、以及測試和監控框架。在不同產業的部署也需要差異極大的專業知識:醫療場景和金融場景的合規要求差異巨大,不是一個通用模型就能打天下。
ElevenLabs 正在建立的是一個完整的平台生態系。目前平台上已經有超過兩萬個使用者貢獻的語音,涵蓋各種語言、風格和聲音特質。他們也提供了 Agent 工作流程模板和創意工具模板,讓使用者能快速啟動自己的應用。
這種「模型 + 工作流程 + 社群」的組合,正是 Staniszewski 認為難以被複製的原因。你可以訓練出一個很好的語音模型,但要同時建立一個涵蓋兩萬種聲音、支援多產業部署、且已經被 41% 財星 500 大企業採用的平台,門檻完全不同。
回到 ElevenLabs 的整體故事,有一條貫穿始終的邏輯:他們在每個環節都選擇了「重」的做法。全球招募而非在地招聘,千人標註團隊而非自動化標註,每個部門嵌入工程師而非集中式 IT 支援,建平台生態而非賣 API 了事。這些選擇在短期內都比較慢、比較貴,但它們累積出來的優勢也比較難被追上。Staniszewski 自己也承認,公司才四歲,這些做法能不能持續奏效還有待驗證。但至少到目前為止,數字說明了一切。