生成式媒體的「鏟子」生意:Fal 如何在 AI 淘金熱中找到穩贏位置

在 AI 淘金熱中,多數人搶著做模型、做應用。Fal 選了另一條路:做基礎設施。但這把「鏟子」每 28 天就得重造一次,而且要跨越 NVIDIA、AMD、TPU 三種硬體。這是一門什麼樣的生意?

生成式媒體的「鏟子」生意:Fal 如何在 AI 淘金熱中找到穩贏位置

本文整理自 Open Source Startup Podcast 2026 年 4 月播出的單集。

{{< spotify "episode/2JFv8eAHGbo6UY9XJT1xaP" >}}

{{< apple-podcast "tw/podcast/e194-fals-bet-on-generative-media/id1548524534?i=1000764562135" >}}


淘金熱裡最聰明的人不是在挖金子

每一波科技浪潮都有一個經典比喻:加州淘金熱中賺最多錢的不是礦工,而是賣鏟子和牛仔褲的人。在 AI 這波浪潮裡,NVIDIA 賣 GPU 晶片,AWS 賣算力,這些都是明顯的「鏟子商人」。但有一類公司的定位更微妙:他們不做模型、不做消費端產品,專門幫別人把模型跑得更快、更便宜、更可靠。Fal 就是這樣的公司。

Fal 是一家估值 45 億美元的生成式媒體雲端平台,提供圖像、影片和音訊模型的推論 API。2025 年 12 月完成 Sequoia 領投的 1.4 億美元 D 輪,客戶包含 Adobe、Shopify、Canva。他們的工程負責人巴圖漢.塔斯卡亞(Batuhan Taskaya)在 Podcast 中清楚闡述了這個定位的邏輯:在生成式媒體領域,排名前五的模型平均 28 天就會被新模型取代。如果你把賭注放在某一個模型上,你的優勢最多維持一個月。但如果你做的是「讓任何模型都跑得最快」的基礎設施,你就永遠有生意。

這聽起來像是一個輕鬆的定位。但塔斯卡亞的描述讓我明白,這門生意遠比「賣鏟子」複雜得多。


第一個挑戰:這把鏟子每代 GPU 都要重造

Fal 的核心技術是自建的推論引擎,包含針對特定 GPU 架構優化的 kernel。塔斯卡亞解釋了語言模型和圖像模型在底層計算上的根本差異:語言模型是自迴歸式的,逐一預測下一個 token,瓶頸在記憶體頻寬。圖像和影片模型是擴散式的(diffusion),從隨機雜訊中逐步還原出一張完整的圖像,需要反覆執行二十次左右的高密度計算。這是一個計算密集型的流程,意味著 GPU 的核心利用率才是關鍵。

問題在於,用標準的 PyTorch 去跑這些模型,GPU 利用率只有 30-40%。Fal 做的事情就是透過自建 kernel 和計算圖重排,把利用率拉到 70-80%。這直接轉換成更快的速度和更低的成本。有客戶回報,單純從其他供應商切換到 Fal,產品的使用者留存率就明顯提升,因為圖像生成的等待時間大幅縮短。

但這裡有一個殘酷的現實:每一代 GPU 架構都不同。A100 到 H100 是一次大幅改變,H100 到 Blackwell 又是一次。每次換代,之前寫的 kernel 大部分要重來。塔斯卡亞說,遷移到新架構並達到同等效能,通常需要團隊花數個月。這不是「做一次就能收租」的生意,而是一場永無止境的效能競賽。NVIDIA 自己有四五十人在做推論最佳化,開源社群也會逐漸追上。Fal 的競爭優勢在於速度:新模型一出來,他們能比任何人更快完成優化。


第二個挑戰:GPU 永遠不夠用

2023 年的 GPU 供應危機差點殺死 Fal,但最終反而成為他們的轉捩點。塔斯卡亞回憶,當時整個系統架在 Google GKE 上,使用標準的 Kubernetes 和 Google 的 NFS 儲存。當 GPU 變得極度稀缺,Google 只能給他們八張卡,根本不夠用。他們面臨一個選擇:用每小時 4 美元的高價向 Google 承諾三年(市場價約 2 美元),還是把整個基礎設施打掉重建。

他們選了後者。整個系統從頭改造成多雲架構,能夠從 Lambda Labs、CoreWeave 等各家供應商取得算力。這意味著丟掉 Kubernetes、丟掉 Google 的檔案系統和監控工具,自建分散式檔案系統、自建編排層、自建監控堆疊。對一個當時只有幾個人的團隊來說,這是瘋狂的決定。但它讓 Fal 在別人搶不到 GPU 的時候還能持續成長。

到了 2026 年,算力危機再次來襲。塔斯卡亞說,這次不只是超大雲端商缺貨,連各家中小型雲端供應商都不夠用。原因很簡單:Claude Code、Codex 這些 AI 應用正在吃掉巨量 token,Anthropic 從 20 億營收要衝到 200 億,全部需要算力。Fal 的應對策略是硬體多元化:除了 NVIDIA,開始支援 AMD 晶片和 Google TPU。這對推論引擎來說是另一個巨大的工程挑戰,因為每種硬體的指令集和記憶體模型都不同,kernel 要重新開發。但如果你需要今天就拿到幾千張卡,你沒有選擇,NVIDIA 的訂單要排三到六個月。


開源策略:不是慈善,是商業飛輪

Fal 的開源策略乍看像是慈善行為:他們把後訓練團隊做的蒸餾模型(distilled model)免費公開發布。但仔細看,這是一個精算過的商業飛輪。

邏輯是這樣的。Fal 消費大量開源社群產出的基礎模型(來自 Black Forest Labs、Stability AI、阿里巴巴等),然後用五到六人的後訓練團隊把這些模型蒸餾成更快、更小的版本。這些蒸餾模型以開源方式發布,任何人都可以下載自己跑。那 Fal 靠什麼賺錢?靠「如果你想要一個不用自己管伺服器、能自動擴展、有 SLA 保證的 API」,那就用他們的平台。

這個策略的好處層層疊加。開源建立了品牌和社群信任:當一個開發者在本機試用了 Fal 發布的蒸餾模型,覺得效果不錯想投入生產環境,Fal 的 API 就是最自然的選擇。同時,它避免了鎖定效應帶來的反感。塔斯卡亞強調,如果客戶想把模型搬走自己跑,他們完全支持。這種「不鎖定」的心態反而讓客戶更願意深度合作。最後也是最重要的,開源讓 Fal 保持中立平台的定位,不會和自己平台上的模型供應商變成競爭對手。

塔斯卡亞把 Fal 的定位描述為「技術中立」:他們服務模型開發商(幫他們把模型部署到雲端),也服務終端使用者(提供最佳化的 API 和模型推薦)。如果自己做了一個私有模型並且推廣它,就會和上游的模型開發商產生利益衝突。在一個模型碎片化如此嚴重的市場裡,保持中立比擁有一個模型更有價值。


我的觀察:AI 基礎設施的護城河在哪裡?

聽完 Fal 的故事,我一直在想一個問題:這門生意的護城河到底有多寬?

表面上看,Fal 做的事情(幫人跑模型跑得快一點)似乎很容易被追上。NVIDIA 自己有推論引擎,Together AI 和 Fireworks 也在做類似的事,連大型雲端商都有自己的 ML 推論服務。但 Fal 的 D 輪由 Sequoia 領投、估值 45 億美元,顯然投資人看到了某種深層的防禦性。

我認為 Fal 的護城河有三層,每一層的強度不同。最外層是效能優化能力,這是最容易被追上的,但 Fal 靠持續投入和速度維持時間差。中層是多雲基礎設施和硬體多元化,這是需要大量時間才能複製的系統工程投資。最內層,也是最難複製的,是上千個 Slack 頻道代表的客戶深度整合。當你的工程師和 Adobe 的工程師每天在同一個頻道裡討論問題,這種信任關係不是靠更快的推論速度就能搶走的。

但我也看到一個隱憂:Fal 的模式高度依賴「模型碎片化」這個前提。如果未來生成式媒體領域出現一個像 GPT-4 那樣主導市場一年以上的模型,「平台中立」的價值就會下降。不過從目前的趨勢看,圖像和影片模型的迭代速度只會更快,不會更慢。開源社群的活力、企業特定場景的差異化需求、以及不斷出現的新架構(從 diffusion 到可能的新範式),都指向碎片化會持續甚至加劇。

Fal 提供了一個重要的參照點給所有關注 AI 產業格局的人:在模型快速商品化的世界裡,「基礎設施 + 速度 + 客戶關係」的組合可能比「最強模型」更持久。這不是一個容易的生意,但它可能是一個更穩定的生意。