領袖思維

400 人做到 5 億美元 ARR：ElevenLabs 的精實作戰手冊

多數前沿 AI 公司先燒數十億再談獲利，ElevenLabs 反其道而行。共同創辦人 Mati Staniszewski 在 Sequoia AI Ascent 2026 揭露他們如何用不到 400 人、10 人以下的扁平小隊、和嵌入每個部門的工程師，撐起 5 億美元年營收和 110 億估值。

2026 年 5 月 12 日 · 來源： Sequoia Capital AI Ascent 2026

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的單集。

{{< apple-podcast "tw/podcast/elevenlabs-mati-staniszewski-why-voice-will-be-the/id1750736528?i=1000715272795" >}}

封面圖

在前沿 AI 的世界裡，有一種公認的「正確做法」：先募幾十億美元，蓋超級運算叢集，燒錢訓練模型，再慢慢想怎麼賺錢。ElevenLabs 幾乎把這套劇本反過來走。他們先找到客戶、先有營收、先維持利潤，然後才在需要更大規模訓練時引入外部資金。2026 年第一季，這家語音 AI 公司的年度經常性收入突破 5 億美元，估值 110 億美元，員工還不到 500 人。共同創辦人兼執行長斯坦尼謝夫斯基（Mati Staniszewski）在 Sequoia 的 AI Ascent 2026 活動上，拆解了他們的經營邏輯。

冷門賽道上的先發優勢

2022 年 ElevenLabs 成立時，AI 領域的熱錢幾乎全部流向文字和影像模型。音訊被視為小眾中的小眾，研究人才屈指可數，也沒有什麼大公司認真投入。Staniszewski 回憶當時的氛圍：整個產業還在追加密貨幣和元宇宙，連 AI 本身都還沒成為主流話題。

但這個「沒人看」的局面恰好創造了一組獨特的條件。音訊模型的參數規模比文字和影像模型小得多，訓練所需的算力門檻相對低。這意味著你不需要在第一天就拿到幾億美元的投資才能開工。ElevenLabs 的早期策略因此非常清晰：用有限的資源先做出能賣的產品，用營收養活研發，維持健康的利潤率來確保獨立性。

這個策略成立的前提是團隊夠強。Staniszewski 和共同創辦人兼技術長達布科夫斯基（Piotr Dabkowski）選擇從一開始就全面遠端，不限地理位置。他們的招募方法很直接：去 GitHub 上掃研究者的公開成果，看到好的就主動聯繫，分享 ElevenLabs 的語音樣本來說服對方加入。這套方法讓他們在全球範圍內組建了一支頂尖的音訊研究團隊，而不是被倫敦或舊金山的人才市場綁死。

隨著野心增長，他們確實也引入了大量外部資金。2026 年 2 月的 D 輪由 Sequoia 領投 5 億美元，投資陣容包括 a16z、NVIDIA 旗下的 NVentures、BlackRock 等機構。但 Staniszewski 強調，這筆錢是用來「加速」而非「救命」。公司在拿到錢之前就已經是可獲利的狀態。

每個團隊都不超過 10 人

ElevenLabs 內部有一個不成文的規矩：不管是研究團隊、產品團隊、甚至業務和法務團隊，每個小隊的人數都控制在 10 人以下。大部分主管直接帶 10 個左右的人，沒有中間管理層。公司也刻意不設頭銜，升遷看的是影響力而非年資。Staniszewski 的說法是，這讓公司即使超過 400 人，運作起來還是像一群小型自治的新創，而不是傳統大企業。

但真正特別的是他們處理「非技術部門」的方式。ElevenLabs 的人資、法務、業務等每個非技術團隊裡面，都有至少一名工程師。這些工程師不是去寫產品程式碼的，而是幫助該部門自動化工作流程、建立內部工具、提升效率。

Staniszewski 舉了法務團隊的例子。做 B2B 銷售的人都知道，跟客戶談合約是一場永無止境的拉鋸戰：對方要求免責條款，你的法務說不行；對方要降低責任上限，你的銷售說不能丟這個客戶。過去 Staniszewski 自己經常被拉進這些討論，因為需要有人做最後裁決。

他們的解法是建立一套自動化的「評分系統」。每個客戶依據規模大小，會得到一定的「讓步點數」。銷售可以在這個額度內自行決定給出哪些條款，不需要層層上報。整套系統由嵌入法務團隊的工程師建立和維護，現在完全自動運作。這種做法的好處不只是節省時間，更重要的是它讓法務議題不會成為銷售流程的瓶頸。

VibeCoding 時代的品質控管

Staniszewski 提到一個很多公司正在經歷的現象：非技術人員開始用 AI 工具寫程式，也就是業界戲稱的「VibeCoding」。在 ElevenLabs 這種每個部門都有工程師的環境裡，這件事的好處特別明顯，因為大量日常的自動化需求可以更快被解決。

但他也點出了一個被低估的風險。當非技術人員用 AI 生成程式碼時，誰來做品質把關？程式碼的安全性、基礎架構的影響、與現有系統的相容性，這些都需要專業判斷。在工程團隊內部，這種審查是自然流程的一部分。但在非工程團隊，如果沒有技術人員坐鎮，VibeCoding 產出的東西很容易出問題。這也是為什麼 ElevenLabs 堅持在每個團隊都放工程師的原因之一：不是要取代 AI 工具的便利性，而是確保有人能對產出的品質負責。

千人聲音教練：資料標註是藝術，不是苦力

在語音 AI 領域，資料的品質比數量重要得多。Staniszewski 引用了 NVIDIA 執行長黃仁勳（Jensen Huang）對他們的評價：語音轉文字是技術，文字轉語音是藝術。

要讓 AI 生成的語音具備真正的情緒深度，光靠網路上大量抓取的音訊資料是不夠的。你必須理解音訊的「怎麼說」，而不只是「說了什麼」。ElevenLabs 為此組建了一支超過 1,000 人的標註團隊，成員包括聲音教練、音樂家和表演藝術家。他們的工作不只是聽寫內容，而是標記每一段音訊中的情緒、停頓、不完美的地方、音樂性。

Staniszewski 坦言，這是一筆不會在短期內看到回報的投資。這些標註資料在未來 6 到 12 個月內不一定能直接提升產品，但他們押注在 12 到 24 個月的時間尺度上，這些精細的情緒標註會成為競爭對手難以複製的護城河。單純靠規模堆資料的做法，永遠達不到這個精度。

護城河不是模型，是整個生態系

被問到什麼是 ElevenLabs 真正的護城河時，Staniszewski 的回答出乎意料地不以模型為中心。他認為模型只是整個技術堆疊的一部分，而真正的價值在於你如何把模型嵌入使用者的工作流程。

具體來說，這包括電話系統的串接（讓語音 Agent 能透過傳統電話線路溝通）、即時協調引擎（管理對話中的輪替和打斷）、以及測試和監控框架。在不同產業的部署也需要差異極大的專業知識：醫療場景和金融場景的合規要求差異巨大，不是一個通用模型就能打天下。

ElevenLabs 正在建立的是一個完整的平台生態系。目前平台上已經有超過兩萬個使用者貢獻的語音，涵蓋各種語言、風格和聲音特質。他們也提供了 Agent 工作流程模板和創意工具模板，讓使用者能快速啟動自己的應用。

這種「模型 + 工作流程 + 社群」的組合，正是 Staniszewski 認為難以被複製的原因。你可以訓練出一個很好的語音模型，但要同時建立一個涵蓋兩萬種聲音、支援多產業部署、且已經被 41% 財星 500 大企業採用的平台，門檻完全不同。

回到 ElevenLabs 的整體故事，有一條貫穿始終的邏輯：他們在每個環節都選擇了「重」的做法。全球招募而非在地招聘，千人標註團隊而非自動化標註，每個部門嵌入工程師而非集中式 IT 支援，建平台生態而非賣 API 了事。這些選擇在短期內都比較慢、比較貴，但它們累積出來的優勢也比較難被追上。Staniszewski 自己也承認，公司才四歲，這些做法能不能持續奏效還有待驗證。但至少到目前為止，數字說明了一切。