AI 產業動態

生成式媒體的「鏟子」生意：Fal 如何在 AI 淘金熱中找到穩贏位置

在 AI 淘金熱中，多數人搶著做模型、做應用。Fal 選了另一條路：做基礎設施。但這把「鏟子」每 28 天就得重造一次，而且要跨越 NVIDIA、AMD、TPU 三種硬體。這是一門什麼樣的生意？

2026 年 5 月 17 日 · 來源： Open Source Startup Podcast

本文整理自 Open Source Startup Podcast 2026 年 4 月播出的單集。

{{< apple-podcast "tw/podcast/e194-fals-bet-on-generative-media/id1548524534?i=1000764562135" >}}

淘金熱裡最聰明的人不是在挖金子

每一波科技浪潮都有一個經典比喻：加州淘金熱中賺最多錢的不是礦工，而是賣鏟子和牛仔褲的人。在 AI 這波浪潮裡，NVIDIA 賣 GPU 晶片，AWS 賣算力，這些都是明顯的「鏟子商人」。但有一類公司的定位更微妙：他們不做模型、不做消費端產品，專門幫別人把模型跑得更快、更便宜、更可靠。Fal 就是這樣的公司。

Fal 是一家估值 45 億美元的生成式媒體雲端平台，提供圖像、影片和音訊模型的推論 API。2025 年 12 月完成 Sequoia 領投的 1.4 億美元 D 輪，客戶包含 Adobe、Shopify、Canva。他們的工程負責人巴圖漢．塔斯卡亞（Batuhan Taskaya）在 Podcast 中清楚闡述了這個定位的邏輯：在生成式媒體領域，排名前五的模型平均 28 天就會被新模型取代。如果你把賭注放在某一個模型上，你的優勢最多維持一個月。但如果你做的是「讓任何模型都跑得最快」的基礎設施，你就永遠有生意。

這聽起來像是一個輕鬆的定位。但塔斯卡亞的描述讓我明白，這門生意遠比「賣鏟子」複雜得多。

第一個挑戰：這把鏟子每代 GPU 都要重造

Fal 的核心技術是自建的推論引擎，包含針對特定 GPU 架構優化的 kernel。塔斯卡亞解釋了語言模型和圖像模型在底層計算上的根本差異：語言模型是自迴歸式的，逐一預測下一個 token，瓶頸在記憶體頻寬。圖像和影片模型是擴散式的（diffusion），從隨機雜訊中逐步還原出一張完整的圖像，需要反覆執行二十次左右的高密度計算。這是一個計算密集型的流程，意味著 GPU 的核心利用率才是關鍵。

問題在於，用標準的 PyTorch 去跑這些模型，GPU 利用率只有 30-40%。Fal 做的事情就是透過自建 kernel 和計算圖重排，把利用率拉到 70-80%。這直接轉換成更快的速度和更低的成本。有客戶回報，單純從其他供應商切換到 Fal，產品的使用者留存率就明顯提升，因為圖像生成的等待時間大幅縮短。

但這裡有一個殘酷的現實：每一代 GPU 架構都不同。A100 到 H100 是一次大幅改變，H100 到 Blackwell 又是一次。每次換代，之前寫的 kernel 大部分要重來。塔斯卡亞說，遷移到新架構並達到同等效能，通常需要團隊花數個月。這不是「做一次就能收租」的生意，而是一場永無止境的效能競賽。NVIDIA 自己有四五十人在做推論最佳化，開源社群也會逐漸追上。Fal 的競爭優勢在於速度：新模型一出來，他們能比任何人更快完成優化。

第二個挑戰：GPU 永遠不夠用

2023 年的 GPU 供應危機差點殺死 Fal，但最終反而成為他們的轉捩點。塔斯卡亞回憶，當時整個系統架在 Google GKE 上，使用標準的 Kubernetes 和 Google 的 NFS 儲存。當 GPU 變得極度稀缺，Google 只能給他們八張卡，根本不夠用。他們面臨一個選擇：用每小時 4 美元的高價向 Google 承諾三年（市場價約 2 美元），還是把整個基礎設施打掉重建。

他們選了後者。整個系統從頭改造成多雲架構，能夠從 Lambda Labs、CoreWeave 等各家供應商取得算力。這意味著丟掉 Kubernetes、丟掉 Google 的檔案系統和監控工具，自建分散式檔案系統、自建編排層、自建監控堆疊。對一個當時只有幾個人的團隊來說，這是瘋狂的決定。但它讓 Fal 在別人搶不到 GPU 的時候還能持續成長。

到了 2026 年，算力危機再次來襲。塔斯卡亞說，這次不只是超大雲端商缺貨，連各家中小型雲端供應商都不夠用。原因很簡單：Claude Code、Codex 這些 AI 應用正在吃掉巨量 token，Anthropic 從 20 億營收要衝到 200 億，全部需要算力。Fal 的應對策略是硬體多元化：除了 NVIDIA，開始支援 AMD 晶片和 Google TPU。這對推論引擎來說是另一個巨大的工程挑戰，因為每種硬體的指令集和記憶體模型都不同，kernel 要重新開發。但如果你需要今天就拿到幾千張卡，你沒有選擇，NVIDIA 的訂單要排三到六個月。

開源策略：不是慈善，是商業飛輪

Fal 的開源策略乍看像是慈善行為：他們把後訓練團隊做的蒸餾模型（distilled model）免費公開發布。但仔細看，這是一個精算過的商業飛輪。

邏輯是這樣的。Fal 消費大量開源社群產出的基礎模型（來自 Black Forest Labs、Stability AI、阿里巴巴等），然後用五到六人的後訓練團隊把這些模型蒸餾成更快、更小的版本。這些蒸餾模型以開源方式發布，任何人都可以下載自己跑。那 Fal 靠什麼賺錢？靠「如果你想要一個不用自己管伺服器、能自動擴展、有 SLA 保證的 API」，那就用他們的平台。

這個策略的好處層層疊加。開源建立了品牌和社群信任：當一個開發者在本機試用了 Fal 發布的蒸餾模型，覺得效果不錯想投入生產環境，Fal 的 API 就是最自然的選擇。同時，它避免了鎖定效應帶來的反感。塔斯卡亞強調，如果客戶想把模型搬走自己跑，他們完全支持。這種「不鎖定」的心態反而讓客戶更願意深度合作。最後也是最重要的，開源讓 Fal 保持中立平台的定位，不會和自己平台上的模型供應商變成競爭對手。

塔斯卡亞把 Fal 的定位描述為「技術中立」：他們服務模型開發商（幫他們把模型部署到雲端），也服務終端使用者（提供最佳化的 API 和模型推薦）。如果自己做了一個私有模型並且推廣它，就會和上游的模型開發商產生利益衝突。在一個模型碎片化如此嚴重的市場裡，保持中立比擁有一個模型更有價值。

我的觀察：AI 基礎設施的護城河在哪裡？

聽完 Fal 的故事，我一直在想一個問題：這門生意的護城河到底有多寬？

表面上看，Fal 做的事情（幫人跑模型跑得快一點）似乎很容易被追上。NVIDIA 自己有推論引擎，Together AI 和 Fireworks 也在做類似的事，連大型雲端商都有自己的 ML 推論服務。但 Fal 的 D 輪由 Sequoia 領投、估值 45 億美元，顯然投資人看到了某種深層的防禦性。

我認為 Fal 的護城河有三層，每一層的強度不同。最外層是效能優化能力，這是最容易被追上的，但 Fal 靠持續投入和速度維持時間差。中層是多雲基礎設施和硬體多元化，這是需要大量時間才能複製的系統工程投資。最內層，也是最難複製的，是上千個 Slack 頻道代表的客戶深度整合。當你的工程師和 Adobe 的工程師每天在同一個頻道裡討論問題，這種信任關係不是靠更快的推論速度就能搶走的。

但我也看到一個隱憂：Fal 的模式高度依賴「模型碎片化」這個前提。如果未來生成式媒體領域出現一個像 GPT-4 那樣主導市場一年以上的模型，「平台中立」的價值就會下降。不過從目前的趨勢看，圖像和影片模型的迭代速度只會更快，不會更慢。開源社群的活力、企業特定場景的差異化需求、以及不斷出現的新架構（從 diffusion 到可能的新範式），都指向碎片化會持續甚至加劇。

Fal 提供了一個重要的參照點給所有關注 AI 產業格局的人：在模型快速商品化的世界裡，「基礎設施 + 速度 + 客戶關係」的組合可能比「最強模型」更持久。這不是一個容易的生意，但它可能是一個更穩定的生意。