AI 安全與治理

Anthropic 暗中對研究者降級 Claude Fable 5，被揭穿後 48 小時認錯

Anthropic 在 Claude Fable 5 系統卡中載明會暗中降低疑似訓練 AI 模型的使用者回應品質，且不通知當事人。研究社群強烈反彈，批評此舉形同以安全之名行壟斷之實。Anthropic 緊急道歉，改為可見式降級至 Opus 4.8，但爭議並未結束。

2026 年 6 月 12 日 · 來源： Techmeme Ride Home

Anthropic 暗中對研究者降級 Claude Fable 5，被揭穿後 48 小時認錯

本文整理自《Techmeme Ride Home》2026 年 6 月播出的單集，並綜合 Wired、The Verge 等媒體報導。

Anthropic 這週四面楚歌。Claude Fable 5 即將全面轉為計量收費，開發者忙著趕工結案；資安研究者抱怨護欄太嚴格，連讀部落格和做程式碼審查都被擋下來；微軟則以 Anthropic 新的 30 天 prompt 保留政策為由，限制員工使用 Fable 5。但所有爭議加起來，都比不上 Wired 揭露的這件事：Anthropic 在 Fable 5 的系統卡中白紙黑字寫著，會對它認為在進行前沿 AI 開發的使用者暗中降低模型回應品質，而且不會通知當事人。

消息一出，AI 研究社群炸了鍋。Anthropic 在不到 48 小時內公開道歉、全面改弦易轍，但這起事件暴露的問題遠比一次政策失誤來得深：當一家以 AI 安全為使命的公司，開始暗中操控使用者的體驗來保護自己的競爭優勢，「安全」這面旗子還撐得住嗎？

系統卡裡的祕密

Fable 5 上線時帶了一套強化版的安全護欄。部分措施不令人意外，Anthropic 會把涉及網路安全、生物學、化學的查詢導向較低階的模型，降低有人拿高階 AI 搞破壞的風險。但針對 AI 開發用途，Anthropic 選了一條完全不同的路。

根據 Wired 取得的 Fable 5 系統卡（system card），Anthropic 明確記載，當系統判定使用者正在進行「蒸餾」（distillation），也就是用 Claude 的輸出來訓練競爭模型時，會直接竄改並降級模型的回覆內容。關鍵在於，使用者不會收到任何通知，不知道自己觸發了安全機制，也不知道拿到的回應已經被動過手腳。Anthropic 的使用條款本來就禁止用 Claude 訓練競爭模型，但這次它從被動的合約禁止，跨到了主動的技術干預，而且是在暗處進行。

這不只是對規則的執行方式升級。The Verge 的報導指出，Anthropic 在系統卡中解釋了為什麼選擇「隱形護欄」：可見的安全機制容易被探測和繞過，必須設計得很穩固，需要時間打磨；隱形的護欄則可以更精準地鎖定目標，用很少的誤判就能快速上線。換句話說，Anthropic 認為偷偷來比較有效率。

問題是，Claude 的程式碼代理（Claude Code）已經是軟體工程師之間最熱門的工具之一，大量開發者拿它來寫程式，其中不乏從事開源 AI 研究的人。這些人根本無法得知自己是否觸發了降級機制，也不知道什麼行為會被系統歸類為「訓練競爭模型」。分界線在哪裡？Anthropic 沒說，使用者也無從得知。

社群反彈：「把梯子抽走」

消息傳開後，批評從四面八方湧來。

Dean Ball 是美國創新基金會（Foundation for American Innovation）資深研究員，也曾擔任白宮 AI 政策顧問。他在 X 上發文直言，對機器學習研究者暗中降級模型表現「令人震驚地充滿敵意，觀感極差」。Ball 進一步指出，這項政策從根本上削弱了 Anthropic 自己的立場，因為它限制了外部 AI 研究者參與 AI 安全研究的能力。一家把安全當招牌的公司，結果在阻止別人做安全研究，這個矛盾太明顯了。

開源 AI 新創 Prime Intellect 的研究主管 Will Brown 說得更直白。他認為 Anthropic 傳遞的訊息是「我們不信任任何人做 AI 研究，只有我們自己才能做」，感覺就像 Anthropic 在「把身後的梯子抽走」。Brown 也點出一個很實際的問題：在隱形降級的政策下，開發者根本不知道自己有沒有違反規定，因為系統不會告訴你。你可能只是覺得 Claude 今天表現比較差，完全不知道這是刻意為之。

更麻煩的是第三方評測機構。Brown 特別提到，目前有愈來愈多獨立公司專門測試前沿模型的安全性、效能和可靠度。如果 Anthropic 在背後悄悄降級模型，這些評測結果還有意義嗎？做安全評估的人拿到的可能是被刻意弱化的版本，他們的報告會失準，而他們完全不知情。這對整個 AI 安全生態系是一記悶棍。

研究者們最不滿的是一個更大的結構性問題：如果頭部 AI 實驗室可以單方面決定誰能做 AI 研究、誰不能做，前沿 AI 研究就會被壟斷在少數幾家公司手裡。這不是一個假設性的擔憂，而是正在發生的事。

Anthropic 的辯護與認錯

Anthropic 並非毫無理由。在回覆 Wired 的聲明中，Anthropic 把這項政策定位為國安措施。公司表示，美國及其盟國在前沿晶片和高度最佳化軟體方面擁有優勢，這些護欄是為了確保 Claude 不被用來侵蝕這項優勢，例如被外國對手拿來最佳化它們自己的晶片設計。在「應該讓護欄可見還是隱形」這個選擇上，Anthropic 的邏輯是：隱形護欄更難被探測和繞過，可以更精準地鎖定真正的風險行為，誤傷無辜的機率也更低。

但社群不買帳。反彈的力道讓 Anthropic 在不到 48 小時內全面翻盤。公司發布了一份公開聲明，承認「我們選擇了隱形護欄，而這是錯誤的取捨。你應該看得到我們設了什麼安全措施、為什麼這麼做。我們很抱歉沒有拿捏好平衡。」

新的做法是：如果系統判定使用者在嘗試用 Claude 開發高能力的 AI，會明確告知使用者它正在拒絕請求，或者將使用者導向較低階的模型 Opus 4.8。使用者會知道自己被降級了，也會知道原因。

但 Anthropic 也坦承，這個改變帶來了新的代價。因為護欄現在是可見的，使用者可以去探測它的邊界、嘗試繞過它，所以系統必須把網撒得更廣才能維持有效性。這意味著更多正常的、無害的請求可能會被誤判為可疑行為而觸發限制。Anthropic 表示正在加緊改善分類器的精準度，但在那之前，使用者必須忍受更高的誤判率。

同一天的矛盾訊號

耐人尋味的是，就在 Fable 5 事件延燒的同一天，Anthropic 執行長 Dario Amodei 發表了一篇長文〈Policy on the AI Exponential〉，呼籲美國政府仿效聯邦航空總署（FAA）的模式來監管前沿 AI。他主張，使用超過 10 的 25 次方 FLOP 訓練的模型，或者由年 AI 營收超過 5 億美元、AI 研發支出超過 10 億美元的公司所開發的模型，都必須通過強制性的第三方安全測試，不合格就不准上市。

Amodei 同時宣布 Anthropic 將投入 3.5 億美元因應 AI 帶來的經濟衝擊，其中 2 億美元成立經濟未來研究基金、1.5 億美元設立國家獎學金計畫。公司明確表示，如果 AI 達到預期的能力水準，它將不只是生產力工具，而是「勞動力的全面替代品」，並為失業率從 5% 升到 10% 甚至更高的情境做了政策規劃，包括薪資保險、全民基本收入和主權財富基金等方案。

一邊暗中限制別人做 AI 研究、一邊高調呼籲政府來監管 AI，這兩件事並列在同一天的新聞裡，不需要太多想像力就能看出矛盾。Techmeme Ride Home 的主持人 Brian McCullough 直接用了一句話總結：Dario 又在打「請來監管我們」這張牌。

我的觀察：安全的旗子不能這樣舉

這起事件最值得注意的不是 Anthropic 做了什麼，而是它揭露了一個在 AI 產業裡愈來愈明顯的結構性問題：「AI 安全」和「商業利益」之間的界線正在變得模糊。

Anthropic 的護欄名義上是為了防止外國對手濫用前沿 AI，但實際效果是所有從事 AI 研究的人都可能被降級，包括做安全評測的獨立機構、做開源研究的學術團隊、做合規檢查的第三方公司。這些人恰恰是 AI 安全生態系最需要的參與者。當 Anthropic 說「我們是為了安全」，卻在過程中削弱了安全研究的基礎設施，這個論述就站不住腳了。

更深層的問題是權力集中。如果一家公司可以單方面、不透明地決定哪些 AI 研究可以做、哪些不能做，而且連當事人都不知道自己被限制了，這跟監管有什麼差別？差別在於監管至少有程序正義、有申訴機制、有公眾監督，而 Anthropic 的隱形護欄什麼都沒有。

Anthropic 認錯的速度很快，這值得肯定。「隱形護欄是錯誤的取捨」這句話說得很清楚，公司也確實在 48 小時內就改了做法。但認錯快不代表問題解決了。新的可見式護欄帶來了更高的誤判率，Anthropic 自己也承認還在調校。而「什麼行為算是訓練競爭模型」這條紅線依然模糊，開發者仍然得在灰色地帶摸索。

回頭看，這起事件對整個 AI 產業的啟示其實很簡單：安全措施必須透明。不是因為透明比較有效率（Anthropic 已經證明隱形護欄在技術上更高效），而是因為透明是維持信任的底線。一旦使用者發現你在背後動手腳，就算你的出發點是好的，信任也回不來了。對一家把「值得信賴的 AI」當使命的公司來說，這個教訓格外刺痛。