Anthropic 公開點名三家中國實驗室蒸餾 Claude,1,600 萬次對話揭開 API 商業模式的根本矛盾
Anthropic 指控 DeepSeek、MiniMax、月之暗面三家中國實驗室透過 API 大規模蒸餾 Claude,合計超過 1,600 萬次對話。但 AI 研究者 Nathan Lambert 認為中國實驗室的行為完全理性,真正的問題是 API 商業模式本身的矛盾:你既要賣 API 賺錢,又怕客戶拿輸出去訓練競品。


本文整理自 Latent Space Podcast 的 SAIL Live 節目,2026 年 2 月播出。
{{< youtube 7EBQ04OL-is >}}
Anthropic 罕見地公開「點名」了
2026 年 2 月 23 日,Anthropic 做了一件 AI 產業很少見的事:在官方部落格公開點名三家中國 AI 實驗室,指控它們透過 API 大規模蒸餾 Claude 模型。被點名的三家分別是 DeepSeek、MiniMax、以及月之暗面(Moonshot AI)。根據 Anthropic 的報告,三家實驗室合計使用了約 24,000 個假帳號,產生超過 1,600 萬次交換。這件事發生在美國正熱烈辯論 AI 晶片出口管制的敏感時機,Anthropic 的部落格文章明確呼籲加強限制,讓這份報告同時具備了技術偵測和政策遊說的雙重性質。
這個數字是什麼概念?一般使用者做基準測試,大概幾百到幾千次查詢就夠了。但蒸餾需要的資料量完全不是同一個數量級,動輒數萬到數十萬次。Anthropic 就是從這種異常的流量規模,嗅到了不對勁。偵測手法中一個案例特別鮮明:當 Claude Opus 4.6 一發布,MiniMax 的帳號群組幾乎立刻把將近一半的流量轉向新模型。這種行為模式太明顯了,等於直接在說「我就是來抄你最新版的」。
但在 Latent Space 的 SAIL Live 節目上,AI2(Allen Institute for AI)後訓練團隊負責人 Nathan Lambert 給了一個出乎意料的反應。他沒有譴責中國實驗室,反而說:「我認為中國實驗室當然應該這樣做。他們面臨嚴重的 GPU 短缺,用 API 比自己生成合成資料容易太多了。」
蒸餾到底是什麼?為什麼中國實驗室要做這件事?
先釐清一個概念。「蒸餾」(distillation)在 AI 領域指的是用一個強大的「教師模型」的輸出,來訓練一個較小的「學生模型」。原始的技術定義涉及模型的 token 機率分佈(logits)匹配,但在大型語言模型時代,實務上常常簡化為:拿強模型生成的文本當作訓練資料,餵給自己的模型學習。透過 API 做蒸餾,技術上其實是比較弱的形式,因為你只拿得到模型的文字輸出,拿不到底層的機率分佈。這就像你只能看到老師的考卷答案,但看不到解題過程和思考邏輯。相比之下,如果你有開源模型的完整權重,蒸餾效果會好得多。
那為什麼中國實驗室還要這樣做?Nathan Lambert 的分析很直接:中國實驗室面臨嚴重的 GPU 短缺。在美國的出口管制下,取得先進晶片越來越困難。透過 API 取得合成訓練資料,比自己從頭生成要省力得多。花幾萬美元的 API 費用,換到可能需要數百萬美元算力才能生成的訓練資料,這筆帳怎麼算都划算。這不是道德判斷,是經濟理性。
Anthropic 在報告中也揭露了一些有意思的細節。DeepSeek 的蒸餾內容中,有一部分是在尋找政治敏感議題的「審查安全替代方案」,比如關於異見人士、黨內領導人、威權主義的查詢。這暗示蒸餾不只是為了提升模型的一般能力,也涉及如何處理中國特有的內容審查需求。
規模的差異說明了很多事
三家實驗室的蒸餾規模差異非常大,這些差異本身就值得玩味。MiniMax 的交換量約 1,300 萬次,是三家中最大的。Anthropic 甚至在 MiniMax 還沒發布用這些資料訓練的新模型之前就抓到了,等於是目睹了蒸餾攻擊的完整生命週期。月之暗面(Moonshot AI)約 340 萬次,排在第二。它的蒸餾重點放在 AI Agent 的推理能力、工具使用、程式撰寫、以及電腦視覺能力。而 DeepSeek 只有約 15 萬次,跟 MiniMax 差了將近兩個數量級。
Nathan Lambert 在節目中特別指出了這個差距。他認為 Anthropic 這篇部落格是「一篇政治性的文章」,目的是在政策辯論中取得話語權。把 DeepSeek 的名字拉進來,更多是策略性的操作,因為 DeepSeek 是目前中國 AI 最受全球關注的名字。把它放進報告裡,自然能獲得更多媒體報導和政策討論的注意力。但就蒸餾規模而言,DeepSeek 的 15 萬次跟 MiniMax 的 1,300 萬次根本不在同一個量級。
最好的老師不一定是最強的模型
蒸餾研究中有一個反直覺的發現。你可能以為,拿最強的模型當老師,蒸餾出來的學生一定最好。但研究結果顯示不是這樣。關鍵在於教師和學生之間的 token 機率分佈要匹配。如果教師模型太強,它的輸出分佈和學生模型的能力差距太大,學生反而學不好。Nathan Lambert 用一個簡單的邏輯解釋了這件事:讓大學教授教幼兒園小朋友數學,效果可能不如讓高中生來教。同一個模型家族內的蒸餾,比如用 Qwen 的大模型教 Qwen 的小模型,效果通常比跨家族蒸餾更好,因為它們的 token 分佈更相容。
這讓跨實驗室的 API 蒸餾變得更加弔詭。中國實驗室花大錢從 Claude 的 API 取得的蒸餾資料,由於模型架構和訓練方式的差異,用在自家模型上的效果,可能還不如用自己家族的較大模型來蒸餾。當然,對於沒有足夠大模型可以當老師的實驗室來說,跨實驗室蒸餾可能仍然是唯一可行的選項。但這至少說明了一件事:API 蒸餾的威脅,可能沒有 Anthropic 的報告暗示的那麼致命。
API 生意的根本矛盾
這件事暴露的最大問題,不是「中國實驗室偷不偷」,而是 API 商業模式本身的結構性矛盾。你要靠 API 賺錢,就必須讓用戶存取你的模型輸出。但模型的輸出本身就是最有價值的資產,一旦給出去,你就無法控制它被拿去做什麼。這個矛盾沒有技術方案能根本解決。你可以監控流量模式、封鎖可疑帳號、在使用條款裡禁止蒸餾。但只要 API 是開放的,蒸餾就永遠有可能發生。
Nathan Lambert 因此提出了一個尖銳的觀點:如果 Anthropic 真的擔心蒸餾,最合理的做法就是把最好的模型直接放進產品裡(比如 Claude Code),然後乾脆不開放 API。他指出 OpenAI 已經在做類似的事,GPT-5 的新變體會先在 Codex 產品中獨家使用兩到四週,才開放給 API 用戶。
這個趨勢如果持續下去,對整個 AI 生態系會有深遠的影響。目前有大量企業客戶依賴 API 來建構自己的應用程式。如果頂級模型只存在於封閉的產品中,這些企業要不就接受次一級的模型,要不就轉向其他提供者。AI 研究者暨暢銷書作者 Sebastian Raschka 在節目中就提出了這個擔憂,認為 API 市場仍然有龐大的企業需求,實驗室不太可能完全放棄。
但 Nathan Lambert 的回應也很犀利:API 市場的競爭殘酷到幾乎沒有護城河。當你的模型開放為 API,競爭對手可以直接在 API 層面跟你打價格戰,利潤極薄。相較之下,把模型包裝進產品中,用使用者體驗和生態系建立差異化,商業邏輯更站得住腳。Latent Space 主持人 Swix 也補充了一個精闢的觀察:「你部署的模型永遠不是你訓練的模型。你訓練的是密集模型,部署的是 MOE(混合專家)模型。」換句話說,即使是 API 背後的模型,也已經是經過蒸餾和架構調整的版本。實驗室裡最強的原始模型,可能從來沒有對外曝光過。
抓到了,然後呢?
Anthropic 的偵測能力確實令人印象深刻。他們使用了行為指紋識別、思維鏈引導分類器、以及大規模帳號網路的協調活動偵測,成功從數萬個分散帳號中辨識出有組織的蒸餾行為。但偵測和阻止是兩回事。你可以封鎖帳號,擋不住新帳號的創建。你可以調整使用條款,但在不同的司法管轄區,這些條款的執行力有限。更根本的是,當你的商業模式就是賣 API 存取權,你很難在「歡迎使用」和「但不准用太多」之間畫出清晰的界線。
這場蒸餾攻防恐怕不會有簡單的結局。背後是 AI 產業一個更深層的矛盾:前沿模型的價值越高,保護它們的難度就越大,而保護它們的代價,可能就是犧牲讓更多人使用的開放性。對 Anthropic 而言,這篇部落格文章的策略意圖很明確,它同時是技術報告、威懾信號、也是政策遊說文件。至於蒸餾本身會不會因此減少?看看那 1,600 萬次對話的規模,答案恐怕是不會。