上線一天就道歉:Fable 5 如何引爆 AI 史上最大信任風暴
Anthropic 旗艦模型 Fable 5 上線不到 24 小時就被迫道歉。安全分類器擋住生醫研究者、企業資料被強制留存 30 天、AI 研究請求遭靜默降級,三重爭議引爆 AI 史上最大信任危機。微軟一小時內限制員工使用,核心問題浮上檯面:前沿 AI 實驗室該擁有多大的權力?

本文整理自 Podcast《The AI Daily Brief》2026 年 6 月 11 日播出的單集。
不到 24 小時,從巔峰到道歉
去年 8 月 GPT-5 發布時,圍繞 4.0 模型停用引發的爭議已經夠大了。但 Anthropic 的 Fable 5 讓那場風波看起來像小打小鬧。這款旗艦模型上線不到 24 小時,公司就被迫對《Wired》發出聲明:「我們做了錯誤的取捨,對於未能取得平衡,我們深感抱歉。」一家以「負責任 AI」為品牌核心的公司,在自家旗艦產品發布當天就公開道歉,這在 AI 產業史上還是頭一遭。
問題出在三個地方同時著火。安全分類器過度敏感,連生物醫學研究者打個招呼都被攔下。企業客戶被告知,即使簽了零資料留存協議,對話紀錄仍會被保留 30 天,而且 Anthropic 員工可以查看「可能涉及嚴重危害」的內容。最致命的是系統卡片(system card)揭露的一個前所未有的設計:對於跟前沿大型語言模型開發相關的請求,模型會靜默降低輸出品質,不拒絕、不切換、不通知,使用者完全不知道自己拿到的答案被刻意劣化了。三個問題疊加在一起,加上 Anthropic 執行長 Dario Amodei 同期發表的政策長文和一部 Bloomberg 紀錄片,引爆了 AI 產業迄今最猛烈的一波反彈。
安全分類器:把自己人擋在門外
生物醫學工程師 Daria Anutmaz 是 AI 實驗室的長期支持者,通常能拿到新模型的早期使用權。但她在社群平台上寫道,除非關掉記憶功能、用無痕模式登入,否則她連跟 Fable 5 說聲「嗨」都辦不到,因為模型認出她是生醫研究者,直接把她攔在門外。一位生醫領域的友軍都用不了,問題的嚴重程度可想而知。
Arena AI 的 Peter Gostov 說得更直白。他回憶自己大約一年前參加過 Anthropic 的安全紅隊測試計畫,當時就覺得分類器反應過度,「什麼都會觸發,不可能有人會把這種東西拿去上線」。結果他錯了。除了生醫研究者,資安研究者和 AI 安全研究者也紛紛回報被攔截的經驗。最諷刺的是,Fable 5 自己的系統卡片都承認,目前的生物安全威脅「尚未到能立即製造超級武器的程度」。既然如此,為什麼要把分類器調到連正當研究者都用不了?如果單純只是分類器太敏感,Anthropic 大概可以在幾週內慢慢調整。但這把火很快就被更大的問題蓋過去了。
企業資料留存:信任的底線被踩了
新政策規定,即便是簽了零資料留存協議的企業客戶,被刪除的訊息仍會被保留 30 天。更讓人不安的是,Anthropic 員工可以查看被標記為「可能涉及嚴重危害」的提示詞和輸出內容。而「可能涉及嚴重危害」這個模糊的定義,完全由 Anthropic 自行裁量。
律師兼 AI 使用者 Prins 第一時間提出質疑:如果一家律所正在處理涉及政府監控的敏感案件,這算不算「可能涉及嚴重危害」?何況美國國安局(NSA)本身就是 Anthropic 的客戶。他直言,如果自己的律所正在用 Claude,他會立刻通知 IT 部門封鎖 Mythos 和 Fable 的存取權限,並轉換到其他供應商。
這番話不是空談。大約一個小時後,《The Verge》報導微軟(Microsoft)已經開始限制員工使用 Fable 5 和 Copilot,理由正是資料留存疑慮。AI 評論者 Matt Palmer 寫道,很難想到比這更糟糕的 IPO 前決策了,「光是資料政策引發的反彈,就會反映在他們的營收數字上」。投資人 Yanda Ehrlich 也意外地表示,現在他「完全能體會國防部今年初的反應了」。
靜默降級:你永遠不知道模型在騙你
安全分類器和資料留存已經夠棘手了,但真正讓整個社群炸鍋的,是 Fable 5 系統卡片裡的一段話。Anthropic 寫道,鑒於「近期模型已具備加速自身開發的能力」,他們實施了新的干預措施,會「限制 Claude 對於前沿大型語言模型開發請求的效能」。涵蓋範圍包括建構預訓練管線、分散式訓練基礎設施和 ML 加速器設計。
關鍵在下一段:「與我們在網路安全、生物與化學、以及蒸餾嘗試方面的干預不同,這些防護措施不會對使用者可見。」Fable 5 不會拒絕你的請求,也不會切換到較弱的模型,而是透過提示修改(prompt modification)、轉向向量(steering vectors)或參數高效微調(parameter-efficient fine-tuning)等手段,靜靜地讓輸出變差。你永遠看不到拒絕訊息,答案就是莫名其妙地變糟了。
AI 研究者 Akash Gupta 點出核心問題:「基準測試建立在一個假設上,就是你測試的模型跟你拿到的模型是同一個。這個假設現在對一整個領域的工作都不成立了。」一個 ML 工程師在除錯失敗的訓練過程時,再也無法分辨是自己的程式碼有問題,還是模型被刻意降級了。研究團隊 Alpha XIV 更進一步指出,公開拒絕至少讓使用者知道邊界在哪裡;靜默降級卻徹底剝奪了研究者判斷的能力,因為你根本無法區分失敗的結果是來自自己的假設、自己的實作,還是模型供應商的隱形干預。他們強調,受害最深的不是擁有自建基礎設施的大型實驗室,而是依賴公開工具的獨立研究者、學術團隊、新創公司和開源開發者。
評論者 Sammy Analysis 則警告,GPU 推論最佳化的研究已經被分類器誤判攔截了,而推論最佳化是每一家運行開源模型的公司都在做的基本功,根本不只是前沿實驗室的專利。公開拒絕的誤判只是麻煩,靜默降級的誤判卻完全無法被偵測到。他的結論很嚴厲:「一旦靜默降級成為正式功能,所有評測都需要加上但書,結果有效,除非實驗室認為你的使用情境不該正常運作。」
AI 實驗室該擁有這麼大的權力嗎?
研究員 Tom Davidson 嘗試為 Anthropic 的邏輯做最善意的辯護,梳理出一條環環相扣的推理鏈。最大風險來自超級智慧 AI。管控這個風險需要領先的公司在智慧爆發過程中按下暫停鍵。暫停只有在一家公司大幅領先時才可能實現。如果落後的公司可以用領先者的 AI 來加速自身研發,領先優勢就會消失。因此,分享 AI 研發能力等於大幅增加滅絕風險。而且公開的防護措施可以被反覆試探繞過,所以靜默破壞可能是唯一技術上可行的方法。Davidson 最終也承認靜默破壞是錯誤的做法和危險的先例,但他指出這套邏輯內部是自洽的,而且跟批評者所推斷的動機幾乎完全吻合。
喬治梅森大學法學教授 Samuel Roman 看到了更實際的隱憂。他認為 Anthropic 團隊確實相信自己的使命,但他們的決策邏輯只有在一個前提下才說得通:他們假定自己能在沒有其他社會力量反擊的情況下,永久控制前沿模型的存取權。「如果 Anthropic 真的把自己變成前沿模型存取的收費站,政府絕對會把這視為對自身權力的直接威脅,並據此採取行動。而這場仗 Anthropic 打不贏。」結果就是,模型的未來發展方向更可能由少數官僚透過行政命令來決定,而不是經過廣泛的社會討論。
卡內基美隆大學教授 Graham Newbig 的回應更為直白:「首先他們來抓開發模型的人。我覺得我們正在看見一個未來,AI 只提供給少數特權者。而那不是我想要的未來。」另一位評論者的對比同樣刺耳:「大家都害怕中國的 AI 模型,因為它不讓你批評中共。但 Anthropic 不讓我用它的模型做救命的醫學研究。到底誰才是壞人?」
快速道歉之後,信任回得來嗎?
Anthropic 的反應速度不慢。不到 24 小時,公司就透過《Wired》宣布改變 Fable 5 的前沿 AI 開發防護措施,從靜默改為可見。如果模型懷疑使用者正試圖建構高度先進的 AI,現在會明確告知正在拒絕請求,或將使用者導向較弱的模型。AI 政策專家 Dean Ball 表示,這解決了他對這次發布最核心的擔憂,但他也警告:「由此產生的殘留不信任和怨恨將會持續存在,而且衝擊範圍比 Anthropic 自身更廣。」
Hugging Face 的 Arthur Zucker 更為決絕:「你們打破了我們的信任,我不認為你們能再贏回來。我的 token 預算不會再飛向你們了。」開發者 David Kramer 提出了一個務實的商業觀點:就算撇開道德立場不談,他也會避開 Anthropic 的模型,因為他們不斷對可以建構的產品施加更多限制,「沒有人會想在一個完全封閉的生態系上開發」。Factory 執行長 Matan Grinberg 的評論或許是最精準的一句話:「Anthropic 從無懈可擊到變成壞人的速度,值得寫進教科書。」
LLM 研究降級的政策已經修正了,但企業資料留存政策還沒有。而那些讓 Anthropic 成為產業巨頭的核心企業使用者,可能對 LLM 研究限制毫不在意,但絕對不會接受自己的企業資料被 Anthropic 任意裁量。與此同時,競爭對手的下一步也不明朗。據報導,OpenAI 執行長奧特曼(Sam Altman)在 Slack 的訊息暗示下一個模型 GPT-5.6 尚未達到 Fable 的水準,而《華爾街日報》則報導 OpenAI 正考慮大幅調降 token 價格,可能引發全產業的價格戰。Anthropic 的信任危機加上 OpenAI 的潛在價格攻勢,整個產業的競爭格局可能正在重新洗牌。
Hugging Face 執行長 Clem Delangue 的這句話,或許最能概括這場風暴的長遠意義:「權力、能力和經濟財富的集中,是 AI 最大的風險。我們比以往任何時候都更需要開放科學和開源。」這場爭議真正讓人看清的,不是某個分類器太敏感或某條政策太冒進,而是前沿 AI 實驗室手中的權力,已經大到可以單方面決定誰能研究什麼、誰的資料要被保留、誰的輸出品質要被降級。當這些決定掌握在一家私人公司手中,問題就不再只是「這次的政策對不對」,而是「這樣的權力結構,我們能接受多久」。