AI 產業動態

Anthropic 公開點名三家中國實驗室蒸餾 Claude，1,600 萬次對話揭開 API 商業模式的根本矛盾

Anthropic 指控 DeepSeek、MiniMax、月之暗面三家中國實驗室透過 API 大規模蒸餾 Claude，合計超過 1,600 萬次對話。但 AI 研究者 Nathan Lambert 認為中國實驗室的行為完全理性，真正的問題是 API 商業模式本身的矛盾：你既要賣 API 賺錢，又怕客戶拿輸出去訓練競品。

2026 年 3 月 9 日 · 來源： Latent Space Podcast

Anthropic 公開點名三家中國實驗室蒸餾 Claude，1,600 萬次對話揭開 API 商業模式的根本矛盾

封面圖

本文整理自 Latent Space Podcast 的 SAIL Live 節目，2026 年 2 月播出。

Anthropic 罕見地公開「點名」了

2026 年 2 月 23 日，Anthropic 做了一件 AI 產業很少見的事：在官方部落格公開點名三家中國 AI 實驗室，指控它們透過 API 大規模蒸餾 Claude 模型。被點名的三家分別是 DeepSeek、MiniMax、以及月之暗面（Moonshot AI）。根據 Anthropic 的報告，三家實驗室合計使用了約 24,000 個假帳號，產生超過 1,600 萬次交換。這件事發生在美國正熱烈辯論 AI 晶片出口管制的敏感時機，Anthropic 的部落格文章明確呼籲加強限制，讓這份報告同時具備了技術偵測和政策遊說的雙重性質。

這個數字是什麼概念？一般使用者做基準測試，大概幾百到幾千次查詢就夠了。但蒸餾需要的資料量完全不是同一個數量級，動輒數萬到數十萬次。Anthropic 就是從這種異常的流量規模，嗅到了不對勁。偵測手法中一個案例特別鮮明：當 Claude Opus 4.6 一發布，MiniMax 的帳號群組幾乎立刻把將近一半的流量轉向新模型。這種行為模式太明顯了，等於直接在說「我就是來抄你最新版的」。

但在 Latent Space 的 SAIL Live 節目上，AI2（Allen Institute for AI）後訓練團隊負責人 Nathan Lambert 給了一個出乎意料的反應。他沒有譴責中國實驗室，反而說：「我認為中國實驗室當然應該這樣做。他們面臨嚴重的 GPU 短缺，用 API 比自己生成合成資料容易太多了。」

蒸餾到底是什麼？為什麼中國實驗室要做這件事？

先釐清一個概念。「蒸餾」（distillation）在 AI 領域指的是用一個強大的「教師模型」的輸出，來訓練一個較小的「學生模型」。原始的技術定義涉及模型的 token 機率分佈（logits）匹配，但在大型語言模型時代，實務上常常簡化為：拿強模型生成的文本當作訓練資料，餵給自己的模型學習。透過 API 做蒸餾，技術上其實是比較弱的形式，因為你只拿得到模型的文字輸出，拿不到底層的機率分佈。這就像你只能看到老師的考卷答案，但看不到解題過程和思考邏輯。相比之下，如果你有開源模型的完整權重，蒸餾效果會好得多。

那為什麼中國實驗室還要這樣做？Nathan Lambert 的分析很直接：中國實驗室面臨嚴重的 GPU 短缺。在美國的出口管制下，取得先進晶片越來越困難。透過 API 取得合成訓練資料，比自己從頭生成要省力得多。花幾萬美元的 API 費用，換到可能需要數百萬美元算力才能生成的訓練資料，這筆帳怎麼算都划算。這不是道德判斷，是經濟理性。

Anthropic 在報告中也揭露了一些有意思的細節。DeepSeek 的蒸餾內容中，有一部分是在尋找政治敏感議題的「審查安全替代方案」，比如關於異見人士、黨內領導人、威權主義的查詢。這暗示蒸餾不只是為了提升模型的一般能力，也涉及如何處理中國特有的內容審查需求。

規模的差異說明了很多事

三家實驗室的蒸餾規模差異非常大，這些差異本身就值得玩味。MiniMax 的交換量約 1,300 萬次，是三家中最大的。Anthropic 甚至在 MiniMax 還沒發布用這些資料訓練的新模型之前就抓到了，等於是目睹了蒸餾攻擊的完整生命週期。月之暗面（Moonshot AI）約 340 萬次，排在第二。它的蒸餾重點放在 AI Agent 的推理能力、工具使用、程式撰寫、以及電腦視覺能力。而 DeepSeek 只有約 15 萬次，跟 MiniMax 差了將近兩個數量級。

Nathan Lambert 在節目中特別指出了這個差距。他認為 Anthropic 這篇部落格是「一篇政治性的文章」，目的是在政策辯論中取得話語權。把 DeepSeek 的名字拉進來，更多是策略性的操作，因為 DeepSeek 是目前中國 AI 最受全球關注的名字。把它放進報告裡，自然能獲得更多媒體報導和政策討論的注意力。但就蒸餾規模而言，DeepSeek 的 15 萬次跟 MiniMax 的 1,300 萬次根本不在同一個量級。

最好的老師不一定是最強的模型

蒸餾研究中有一個反直覺的發現。你可能以為，拿最強的模型當老師，蒸餾出來的學生一定最好。但研究結果顯示不是這樣。關鍵在於教師和學生之間的 token 機率分佈要匹配。如果教師模型太強，它的輸出分佈和學生模型的能力差距太大，學生反而學不好。Nathan Lambert 用一個簡單的邏輯解釋了這件事：讓大學教授教幼兒園小朋友數學，效果可能不如讓高中生來教。同一個模型家族內的蒸餾，比如用 Qwen 的大模型教 Qwen 的小模型，效果通常比跨家族蒸餾更好，因為它們的 token 分佈更相容。

這讓跨實驗室的 API 蒸餾變得更加弔詭。中國實驗室花大錢從 Claude 的 API 取得的蒸餾資料，由於模型架構和訓練方式的差異，用在自家模型上的效果，可能還不如用自己家族的較大模型來蒸餾。當然，對於沒有足夠大模型可以當老師的實驗室來說，跨實驗室蒸餾可能仍然是唯一可行的選項。但這至少說明了一件事：API 蒸餾的威脅，可能沒有 Anthropic 的報告暗示的那麼致命。

API 生意的根本矛盾

這件事暴露的最大問題，不是「中國實驗室偷不偷」，而是 API 商業模式本身的結構性矛盾。你要靠 API 賺錢，就必須讓用戶存取你的模型輸出。但模型的輸出本身就是最有價值的資產，一旦給出去，你就無法控制它被拿去做什麼。這個矛盾沒有技術方案能根本解決。你可以監控流量模式、封鎖可疑帳號、在使用條款裡禁止蒸餾。但只要 API 是開放的，蒸餾就永遠有可能發生。

Nathan Lambert 因此提出了一個尖銳的觀點：如果 Anthropic 真的擔心蒸餾，最合理的做法就是把最好的模型直接放進產品裡（比如 Claude Code），然後乾脆不開放 API。他指出 OpenAI 已經在做類似的事，GPT-5 的新變體會先在 Codex 產品中獨家使用兩到四週，才開放給 API 用戶。

這個趨勢如果持續下去，對整個 AI 生態系會有深遠的影響。目前有大量企業客戶依賴 API 來建構自己的應用程式。如果頂級模型只存在於封閉的產品中，這些企業要不就接受次一級的模型，要不就轉向其他提供者。AI 研究者暨暢銷書作者 Sebastian Raschka 在節目中就提出了這個擔憂，認為 API 市場仍然有龐大的企業需求，實驗室不太可能完全放棄。

但 Nathan Lambert 的回應也很犀利：API 市場的競爭殘酷到幾乎沒有護城河。當你的模型開放為 API，競爭對手可以直接在 API 層面跟你打價格戰，利潤極薄。相較之下，把模型包裝進產品中，用使用者體驗和生態系建立差異化，商業邏輯更站得住腳。Latent Space 主持人 Swix 也補充了一個精闢的觀察：「你部署的模型永遠不是你訓練的模型。你訓練的是密集模型，部署的是 MOE（混合專家）模型。」換句話說，即使是 API 背後的模型，也已經是經過蒸餾和架構調整的版本。實驗室裡最強的原始模型，可能從來沒有對外曝光過。

抓到了，然後呢？

Anthropic 的偵測能力確實令人印象深刻。他們使用了行為指紋識別、思維鏈引導分類器、以及大規模帳號網路的協調活動偵測，成功從數萬個分散帳號中辨識出有組織的蒸餾行為。但偵測和阻止是兩回事。你可以封鎖帳號，擋不住新帳號的創建。你可以調整使用條款，但在不同的司法管轄區，這些條款的執行力有限。更根本的是，當你的商業模式就是賣 API 存取權，你很難在「歡迎使用」和「但不准用太多」之間畫出清晰的界線。

這場蒸餾攻防恐怕不會有簡單的結局。背後是 AI 產業一個更深層的矛盾：前沿模型的價值越高，保護它們的難度就越大，而保護它們的代價，可能就是犧牲讓更多人使用的開放性。對 Anthropic 而言，這篇部落格文章的策略意圖很明確，它同時是技術報告、威懾信號、也是政策遊說文件。至於蒸餾本身會不會因此減少？看看那 1,600 萬次對話的規模，答案恐怕是不會。