模型 28 天就過氣:Fal 押注「不擁有模型」的基礎設施策略,18 個月衝上 $200M ARR
生成式媒體雲平台 Fal 的工程負責人揭露一個驚人數據:平台上排名前五的模型,平均壽命只有 28 天。這家估值 45 億美元的公司選擇不做自己的模型,反而靠基礎設施和極致優化成為市場領導者。

本文整理自 Open Source Startup Podcast 2026 年 4 月播出的單集。
{{< spotify "episode/2JFv8eAHGbo6UY9XJT1xaP" >}}
{{< apple-podcast "tw/podcast/e194-fals-bet-on-generative-media/id1548524534?i=1000764562135" >}}
28 天,一個模型從登頂到被取代
在 AI 產業,我們習慣用「誰的模型最強」來判斷一家公司的競爭力。OpenAI 有 GPT,Google 有 Gemini,Anthropic 有 Claude。但如果告訴你,在生成式媒體領域,最強的模型平均只能維持 28 天的王座地位,你會怎麼看待「做模型」這件事?
這個數據來自 Fal 工程負責人巴圖漢.塔斯卡亞(Batuhan Taskaya)。Fal 是一家專注於圖像、影片和音訊 AI 推論的雲端平台,2025 年 12 月完成由 Sequoia 領投的 1.4 億美元 D 輪融資,估值達 45 億美元。塔斯卡亞在 Podcast 中透露一個驚人事實:平台上營收排名前五的模型,連續兩個月都留在榜上的機率只有 42%。再過一個月,這個數字會降到 20% 以下。沒有任何單一模型佔 Fal 營收超過 10%。
這個數據的衝擊力在於:它徹底翻轉了「贏者通吃」的敘事。在語言模型領域,GPT-4 可以稱霸一年以上。但在圖像和影片生成領域,模型的迭代速度快到沒有人能穩坐第一。對 Fal 來說,這不是壞消息,而是他們整個商業策略的基礎。
一個 Python 資料工具如何變成估值 45 億的 AI 基礎設施公司
Fal 的起源和今天的樣貌幾乎是兩家不同的公司。2021 年成立時,Fal 是一個讓使用者在雲端跑 Python 資料轉換的工具,定位在 Databricks 和 Snowflake 之間。公司名字 Fal 就是 features and labels 的縮寫。到了 2022 年底,Stable Diffusion 和 ChatGPT 同年問世,團隊看到了新機會。
塔斯卡亞回憶當時的決策邏輯:他們只有六個人,必須選一個方向。語言模型市場已經有 OpenAI 的 API,有多家新創在搶。但圖像模型呢?幾乎沒有可靠的 API 存在。有些公司提供服務,但本質上只是把 Docker 容器包一層 HTTP API,不能擴展、速度慢、成本高。Fal 決定用六到九個月的時間閉關,專攻圖像模型的高效能推論。
這個決定的結果驚人。他們從零開始,靠兩個早期客戶在幾個月內達到 100 萬美元 ARR。這個數字讓團隊確信轉型是對的。從那之後,營收在一年內從 100 萬衝到 1000 萬,再從 2024 年 8 月到 2025 年 8 月衝到 1 億美元。到 2025 年 10 月,ARR 已超過 2 億美元。整個過程中,團隊人數始終維持在 35 到 40 人左右。
「模型碎片化」不是問題,是 Fal 最大的護城河
傳統思維會認為模型碎片化是一個問題。如果你投入大量資源訓練一個模型,結果一個月後就被新模型超越,那不是白費力氣嗎?但 Fal 把這個現象看作機會。
塔斯卡亞解釋了他們的邏輯:過去 12 個月,平台上有超過 600 個模型在運行。圖像、影片、音訊領域有大約 100 到 150 家公司在訓練模型,有的做圖像分割、有的做背景移除、有的做虛擬試穿。這種極度碎片化的市場結構意味著沒有人能靠「一個模型打天下」。客戶需要一個中立的平台,能夠快速部署最新、最適合他們場景的模型。
Fal 的策略因此變得清晰:不自己預訓練模型,而是做最好的推論基礎設施。他們有一個五到六人的後訓練團隊,負責把開源基礎模型針對特定場景做蒸餾(distillation)和微調,然後把成果以開源方式發布。客戶可以用 Fal 的 API,也可以自己跑這些開源模型。這種「不鎖定」的策略反而強化了平台的吸引力,因為無論下一個最強模型從哪裡來,Fal 都能在第一時間把它優化到最佳狀態。
這和語言模型市場形成了有趣的對比。在 LLM 領域,OpenAI、Anthropic、Google 都是既做模型又做 API。但在生成式媒體領域,Fal 證明了「只做基礎設施」也能撐起 45 億估值。關鍵差異就在那個 28 天的數字:當模型更迭快到沒有人能長期壟斷時,「能夠最快把任何模型跑到最佳效能」本身就是最有價值的能力。
自建 Kernel 的技術深度:為什麼不能只套 PyTorch
Fal 的技術護城河很直白:對底層硬體的深度理解,加上日復一日的持續優化。塔斯卡亞的背景是編譯器工程師,他是 Python 語言的共同作者之一,做過即時編譯器和資料庫查詢引擎。當他開始看 AI 推論時,第一個反應是:為什麼大家的 GPU 利用率這麼低?
他描述了他們的發現:用標準 PyTorch 跑一個圖像生成模型,理論上 GPU 應該能在某個時間內完成計算,但實際速度慢了三到四倍。這代表有 60% 到 70% 的算力被浪費了。Fal 的團隊花了幾週時間,用效能工程的標準方法(profiling、找瓶頸、逐一解決)把 GPU 硬體利用率從 30% 提升到 70-80%。
但速度優勢本身不是永久的護城河。NVIDIA 有四五十人在做 TensorRT,開源社群遲早會追上來。Fal 真正的優勢在於速度:每當有新模型問世,他們能在最短時間內完成優化。開源社群可能要花幾個月才達到 80% 的效能,而 Fal 在模型上線當天就能提供接近最佳的推論速度。而且每一代 GPU 架構都不同,從 A100 到 H100 到 Blackwell,核心(kernel)都要重寫。這種持續投入的能力本身就是門檻。
更關鍵的是,他們不只做演算法層面的優化。Fal 在 2023 年 GPU 供應危機時,整個系統從 Kubernetes + GKE 改造成多雲架構。他們丟掉了 Google 的檔案系統、監控堆疊、編排層,全部自建。這讓他們能從 Lambda Labs、CoreWeave 等各種雲端供應商取得算力,不被單一供應商綁死。現在他們甚至在積極支援 AMD 晶片和 TPU,因為 NVIDIA 的產能永遠不夠用。
我的觀察:當模型不再是護城河,AI 產業的權力正在重新分配
Fal 的故事讓我重新思考一個問題:在 AI 產業中,真正的競爭優勢到底在哪一層?
過去兩年,整個產業的注意力集中在「誰能訓練出最強的模型」。數百億美元的資金湧入預訓練,每家實驗室都在比模型的 benchmark 分數。但 Fal 的數據揭示了一個不同的現實:至少在生成式媒體領域,模型本身正在快速商品化。28 天的平均壽命意味著今天花 5000 萬美元訓出來的頂級模型,下個月可能就被一個開源團隊用蒸餾技術超越。
這對 AI 產業的權力結構有深遠影響。如果模型不再是護城河,那什麼才是?Fal 給出的答案是三個東西:效能工程的持續投入、多雲基礎設施的靈活性、以及和客戶的深度整合。他們有上千個 Slack 頻道直接和客戶工程團隊對接,這種「工程師對工程師」的服務模式很難被純 API 公司複製。
我認為這個趨勢不只適用於生成式媒體。隨著開源模型在各個領域追上閉源模型的品質,「基礎設施 + 後訓練 + 客戶整合」的組合可能會成為更多 AI 公司的核心策略。對台灣的 AI 新創來說,這是一個值得深思的方向:與其投入資源做第 N 個語言模型,不如思考在特定垂直領域做到「最快把最新模型優化到生產等級」的能力。這可能是一條更務實、也更有護城河的路。