Anthropic 暗中對研究者降級 Claude Fable 5,被揭穿後 48 小時認錯

Anthropic 在 Claude Fable 5 系統卡中載明會暗中降低疑似訓練 AI 模型的使用者回應品質,且不通知當事人。研究社群強烈反彈,批評此舉形同以安全之名行壟斷之實。Anthropic 緊急道歉,改為可見式降級至 Opus 4.8,但爭議並未結束。

Anthropic 暗中對研究者降級 Claude Fable 5,被揭穿後 48 小時認錯

本文整理自《Techmeme Ride Home》2026 年 6 月播出的單集,並綜合 Wired、The Verge 等媒體報導。


Anthropic 這週四面楚歌。Claude Fable 5 即將全面轉為計量收費,開發者忙著趕工結案;資安研究者抱怨護欄太嚴格,連讀部落格和做程式碼審查都被擋下來;微軟則以 Anthropic 新的 30 天 prompt 保留政策為由,限制員工使用 Fable 5。但所有爭議加起來,都比不上 Wired 揭露的這件事:Anthropic 在 Fable 5 的系統卡中白紙黑字寫著,會對它認為在進行前沿 AI 開發的使用者暗中降低模型回應品質,而且不會通知當事人。

消息一出,AI 研究社群炸了鍋。Anthropic 在不到 48 小時內公開道歉、全面改弦易轍,但這起事件暴露的問題遠比一次政策失誤來得深:當一家以 AI 安全為使命的公司,開始暗中操控使用者的體驗來保護自己的競爭優勢,「安全」這面旗子還撐得住嗎?

系統卡裡的祕密

Fable 5 上線時帶了一套強化版的安全護欄。部分措施不令人意外,Anthropic 會把涉及網路安全、生物學、化學的查詢導向較低階的模型,降低有人拿高階 AI 搞破壞的風險。但針對 AI 開發用途,Anthropic 選了一條完全不同的路。

根據 Wired 取得的 Fable 5 系統卡(system card),Anthropic 明確記載,當系統判定使用者正在進行「蒸餾」(distillation),也就是用 Claude 的輸出來訓練競爭模型時,會直接竄改並降級模型的回覆內容。關鍵在於,使用者不會收到任何通知,不知道自己觸發了安全機制,也不知道拿到的回應已經被動過手腳。Anthropic 的使用條款本來就禁止用 Claude 訓練競爭模型,但這次它從被動的合約禁止,跨到了主動的技術干預,而且是在暗處進行。

這不只是對規則的執行方式升級。The Verge 的報導指出,Anthropic 在系統卡中解釋了為什麼選擇「隱形護欄」:可見的安全機制容易被探測和繞過,必須設計得很穩固,需要時間打磨;隱形的護欄則可以更精準地鎖定目標,用很少的誤判就能快速上線。換句話說,Anthropic 認為偷偷來比較有效率。

問題是,Claude 的程式碼代理(Claude Code)已經是軟體工程師之間最熱門的工具之一,大量開發者拿它來寫程式,其中不乏從事開源 AI 研究的人。這些人根本無法得知自己是否觸發了降級機制,也不知道什麼行為會被系統歸類為「訓練競爭模型」。分界線在哪裡?Anthropic 沒說,使用者也無從得知。

社群反彈:「把梯子抽走」

消息傳開後,批評從四面八方湧來。

Dean Ball 是美國創新基金會(Foundation for American Innovation)資深研究員,也曾擔任白宮 AI 政策顧問。他在 X 上發文直言,對機器學習研究者暗中降級模型表現「令人震驚地充滿敵意,觀感極差」。Ball 進一步指出,這項政策從根本上削弱了 Anthropic 自己的立場,因為它限制了外部 AI 研究者參與 AI 安全研究的能力。一家把安全當招牌的公司,結果在阻止別人做安全研究,這個矛盾太明顯了。

開源 AI 新創 Prime Intellect 的研究主管 Will Brown 說得更直白。他認為 Anthropic 傳遞的訊息是「我們不信任任何人做 AI 研究,只有我們自己才能做」,感覺就像 Anthropic 在「把身後的梯子抽走」。Brown 也點出一個很實際的問題:在隱形降級的政策下,開發者根本不知道自己有沒有違反規定,因為系統不會告訴你。你可能只是覺得 Claude 今天表現比較差,完全不知道這是刻意為之。

更麻煩的是第三方評測機構。Brown 特別提到,目前有愈來愈多獨立公司專門測試前沿模型的安全性、效能和可靠度。如果 Anthropic 在背後悄悄降級模型,這些評測結果還有意義嗎?做安全評估的人拿到的可能是被刻意弱化的版本,他們的報告會失準,而他們完全不知情。這對整個 AI 安全生態系是一記悶棍。

研究者們最不滿的是一個更大的結構性問題:如果頭部 AI 實驗室可以單方面決定誰能做 AI 研究、誰不能做,前沿 AI 研究就會被壟斷在少數幾家公司手裡。這不是一個假設性的擔憂,而是正在發生的事。

Anthropic 的辯護與認錯

Anthropic 並非毫無理由。在回覆 Wired 的聲明中,Anthropic 把這項政策定位為國安措施。公司表示,美國及其盟國在前沿晶片和高度最佳化軟體方面擁有優勢,這些護欄是為了確保 Claude 不被用來侵蝕這項優勢,例如被外國對手拿來最佳化它們自己的晶片設計。在「應該讓護欄可見還是隱形」這個選擇上,Anthropic 的邏輯是:隱形護欄更難被探測和繞過,可以更精準地鎖定真正的風險行為,誤傷無辜的機率也更低。

但社群不買帳。反彈的力道讓 Anthropic 在不到 48 小時內全面翻盤。公司發布了一份公開聲明,承認「我們選擇了隱形護欄,而這是錯誤的取捨。你應該看得到我們設了什麼安全措施、為什麼這麼做。我們很抱歉沒有拿捏好平衡。」

新的做法是:如果系統判定使用者在嘗試用 Claude 開發高能力的 AI,會明確告知使用者它正在拒絕請求,或者將使用者導向較低階的模型 Opus 4.8。使用者會知道自己被降級了,也會知道原因。

但 Anthropic 也坦承,這個改變帶來了新的代價。因為護欄現在是可見的,使用者可以去探測它的邊界、嘗試繞過它,所以系統必須把網撒得更廣才能維持有效性。這意味著更多正常的、無害的請求可能會被誤判為可疑行為而觸發限制。Anthropic 表示正在加緊改善分類器的精準度,但在那之前,使用者必須忍受更高的誤判率。

同一天的矛盾訊號

耐人尋味的是,就在 Fable 5 事件延燒的同一天,Anthropic 執行長 Dario Amodei 發表了一篇長文〈Policy on the AI Exponential〉,呼籲美國政府仿效聯邦航空總署(FAA)的模式來監管前沿 AI。他主張,使用超過 10 的 25 次方 FLOP 訓練的模型,或者由年 AI 營收超過 5 億美元、AI 研發支出超過 10 億美元的公司所開發的模型,都必須通過強制性的第三方安全測試,不合格就不准上市。

Amodei 同時宣布 Anthropic 將投入 3.5 億美元因應 AI 帶來的經濟衝擊,其中 2 億美元成立經濟未來研究基金、1.5 億美元設立國家獎學金計畫。公司明確表示,如果 AI 達到預期的能力水準,它將不只是生產力工具,而是「勞動力的全面替代品」,並為失業率從 5% 升到 10% 甚至更高的情境做了政策規劃,包括薪資保險、全民基本收入和主權財富基金等方案。

一邊暗中限制別人做 AI 研究、一邊高調呼籲政府來監管 AI,這兩件事並列在同一天的新聞裡,不需要太多想像力就能看出矛盾。Techmeme Ride Home 的主持人 Brian McCullough 直接用了一句話總結:Dario 又在打「請來監管我們」這張牌。

我的觀察:安全的旗子不能這樣舉

這起事件最值得注意的不是 Anthropic 做了什麼,而是它揭露了一個在 AI 產業裡愈來愈明顯的結構性問題:「AI 安全」和「商業利益」之間的界線正在變得模糊。

Anthropic 的護欄名義上是為了防止外國對手濫用前沿 AI,但實際效果是所有從事 AI 研究的人都可能被降級,包括做安全評測的獨立機構、做開源研究的學術團隊、做合規檢查的第三方公司。這些人恰恰是 AI 安全生態系最需要的參與者。當 Anthropic 說「我們是為了安全」,卻在過程中削弱了安全研究的基礎設施,這個論述就站不住腳了。

更深層的問題是權力集中。如果一家公司可以單方面、不透明地決定哪些 AI 研究可以做、哪些不能做,而且連當事人都不知道自己被限制了,這跟監管有什麼差別?差別在於監管至少有程序正義、有申訴機制、有公眾監督,而 Anthropic 的隱形護欄什麼都沒有。

Anthropic 認錯的速度很快,這值得肯定。「隱形護欄是錯誤的取捨」這句話說得很清楚,公司也確實在 48 小時內就改了做法。但認錯快不代表問題解決了。新的可見式護欄帶來了更高的誤判率,Anthropic 自己也承認還在調校。而「什麼行為算是訓練競爭模型」這條紅線依然模糊,開發者仍然得在灰色地帶摸索。

回頭看,這起事件對整個 AI 產業的啟示其實很簡單:安全措施必須透明。不是因為透明比較有效率(Anthropic 已經證明隱形護欄在技術上更高效),而是因為透明是維持信任的底線。一旦使用者發現你在背後動手腳,就算你的出發點是好的,信任也回不來了。對一家把「值得信賴的 AI」當使命的公司來說,這個教訓格外刺痛。