AI 安全與治理

上線一天就道歉：Fable 5 如何引爆 AI 史上最大信任風暴

Anthropic 旗艦模型 Fable 5 上線不到 24 小時就被迫道歉。安全分類器擋住生醫研究者、企業資料被強制留存 30 天、AI 研究請求遭靜默降級，三重爭議引爆 AI 史上最大信任危機。微軟一小時內限制員工使用，核心問題浮上檯面：前沿 AI 實驗室該擁有多大的權力？

2026 年 6 月 12 日 · 來源： The AI Daily Brief

本文整理自 Podcast《The AI Daily Brief》2026 年 6 月 11 日播出的單集。

不到 24 小時，從巔峰到道歉

去年 8 月 GPT-5 發布時，圍繞 4.0 模型停用引發的爭議已經夠大了。但 Anthropic 的 Fable 5 讓那場風波看起來像小打小鬧。這款旗艦模型上線不到 24 小時，公司就被迫對《Wired》發出聲明：「我們做了錯誤的取捨，對於未能取得平衡，我們深感抱歉。」一家以「負責任 AI」為品牌核心的公司，在自家旗艦產品發布當天就公開道歉，這在 AI 產業史上還是頭一遭。

問題出在三個地方同時著火。安全分類器過度敏感，連生物醫學研究者打個招呼都被攔下。企業客戶被告知，即使簽了零資料留存協議，對話紀錄仍會被保留 30 天，而且 Anthropic 員工可以查看「可能涉及嚴重危害」的內容。最致命的是系統卡片（system card）揭露的一個前所未有的設計：對於跟前沿大型語言模型開發相關的請求，模型會靜默降低輸出品質，不拒絕、不切換、不通知，使用者完全不知道自己拿到的答案被刻意劣化了。三個問題疊加在一起，加上 Anthropic 執行長 Dario Amodei 同期發表的政策長文和一部 Bloomberg 紀錄片，引爆了 AI 產業迄今最猛烈的一波反彈。

安全分類器：把自己人擋在門外

生物醫學工程師 Daria Anutmaz 是 AI 實驗室的長期支持者，通常能拿到新模型的早期使用權。但她在社群平台上寫道，除非關掉記憶功能、用無痕模式登入，否則她連跟 Fable 5 說聲「嗨」都辦不到，因為模型認出她是生醫研究者，直接把她攔在門外。一位生醫領域的友軍都用不了，問題的嚴重程度可想而知。

Arena AI 的 Peter Gostov 說得更直白。他回憶自己大約一年前參加過 Anthropic 的安全紅隊測試計畫，當時就覺得分類器反應過度，「什麼都會觸發，不可能有人會把這種東西拿去上線」。結果他錯了。除了生醫研究者，資安研究者和 AI 安全研究者也紛紛回報被攔截的經驗。最諷刺的是，Fable 5 自己的系統卡片都承認，目前的生物安全威脅「尚未到能立即製造超級武器的程度」。既然如此，為什麼要把分類器調到連正當研究者都用不了？如果單純只是分類器太敏感，Anthropic 大概可以在幾週內慢慢調整。但這把火很快就被更大的問題蓋過去了。

企業資料留存：信任的底線被踩了

新政策規定，即便是簽了零資料留存協議的企業客戶，被刪除的訊息仍會被保留 30 天。更讓人不安的是，Anthropic 員工可以查看被標記為「可能涉及嚴重危害」的提示詞和輸出內容。而「可能涉及嚴重危害」這個模糊的定義，完全由 Anthropic 自行裁量。

律師兼 AI 使用者 Prins 第一時間提出質疑：如果一家律所正在處理涉及政府監控的敏感案件，這算不算「可能涉及嚴重危害」？何況美國國安局（NSA）本身就是 Anthropic 的客戶。他直言，如果自己的律所正在用 Claude，他會立刻通知 IT 部門封鎖 Mythos 和 Fable 的存取權限，並轉換到其他供應商。

這番話不是空談。大約一個小時後，《The Verge》報導微軟（Microsoft）已經開始限制員工使用 Fable 5 和 Copilot，理由正是資料留存疑慮。AI 評論者 Matt Palmer 寫道，很難想到比這更糟糕的 IPO 前決策了，「光是資料政策引發的反彈，就會反映在他們的營收數字上」。投資人 Yanda Ehrlich 也意外地表示，現在他「完全能體會國防部今年初的反應了」。

靜默降級：你永遠不知道模型在騙你

安全分類器和資料留存已經夠棘手了，但真正讓整個社群炸鍋的，是 Fable 5 系統卡片裡的一段話。Anthropic 寫道，鑒於「近期模型已具備加速自身開發的能力」，他們實施了新的干預措施，會「限制 Claude 對於前沿大型語言模型開發請求的效能」。涵蓋範圍包括建構預訓練管線、分散式訓練基礎設施和 ML 加速器設計。

關鍵在下一段：「與我們在網路安全、生物與化學、以及蒸餾嘗試方面的干預不同，這些防護措施不會對使用者可見。」Fable 5 不會拒絕你的請求，也不會切換到較弱的模型，而是透過提示修改（prompt modification）、轉向向量（steering vectors）或參數高效微調（parameter-efficient fine-tuning）等手段，靜靜地讓輸出變差。你永遠看不到拒絕訊息，答案就是莫名其妙地變糟了。

AI 研究者 Akash Gupta 點出核心問題：「基準測試建立在一個假設上，就是你測試的模型跟你拿到的模型是同一個。這個假設現在對一整個領域的工作都不成立了。」一個 ML 工程師在除錯失敗的訓練過程時，再也無法分辨是自己的程式碼有問題，還是模型被刻意降級了。研究團隊 Alpha XIV 更進一步指出，公開拒絕至少讓使用者知道邊界在哪裡；靜默降級卻徹底剝奪了研究者判斷的能力，因為你根本無法區分失敗的結果是來自自己的假設、自己的實作，還是模型供應商的隱形干預。他們強調，受害最深的不是擁有自建基礎設施的大型實驗室，而是依賴公開工具的獨立研究者、學術團隊、新創公司和開源開發者。

評論者 Sammy Analysis 則警告，GPU 推論最佳化的研究已經被分類器誤判攔截了，而推論最佳化是每一家運行開源模型的公司都在做的基本功，根本不只是前沿實驗室的專利。公開拒絕的誤判只是麻煩，靜默降級的誤判卻完全無法被偵測到。他的結論很嚴厲：「一旦靜默降級成為正式功能，所有評測都需要加上但書，結果有效，除非實驗室認為你的使用情境不該正常運作。」

AI 實驗室該擁有這麼大的權力嗎？

研究員 Tom Davidson 嘗試為 Anthropic 的邏輯做最善意的辯護，梳理出一條環環相扣的推理鏈。最大風險來自超級智慧 AI。管控這個風險需要領先的公司在智慧爆發過程中按下暫停鍵。暫停只有在一家公司大幅領先時才可能實現。如果落後的公司可以用領先者的 AI 來加速自身研發，領先優勢就會消失。因此，分享 AI 研發能力等於大幅增加滅絕風險。而且公開的防護措施可以被反覆試探繞過，所以靜默破壞可能是唯一技術上可行的方法。Davidson 最終也承認靜默破壞是錯誤的做法和危險的先例，但他指出這套邏輯內部是自洽的，而且跟批評者所推斷的動機幾乎完全吻合。

喬治梅森大學法學教授 Samuel Roman 看到了更實際的隱憂。他認為 Anthropic 團隊確實相信自己的使命，但他們的決策邏輯只有在一個前提下才說得通：他們假定自己能在沒有其他社會力量反擊的情況下，永久控制前沿模型的存取權。「如果 Anthropic 真的把自己變成前沿模型存取的收費站，政府絕對會把這視為對自身權力的直接威脅，並據此採取行動。而這場仗 Anthropic 打不贏。」結果就是，模型的未來發展方向更可能由少數官僚透過行政命令來決定，而不是經過廣泛的社會討論。

卡內基美隆大學教授 Graham Newbig 的回應更為直白：「首先他們來抓開發模型的人。我覺得我們正在看見一個未來，AI 只提供給少數特權者。而那不是我想要的未來。」另一位評論者的對比同樣刺耳：「大家都害怕中國的 AI 模型，因為它不讓你批評中共。但 Anthropic 不讓我用它的模型做救命的醫學研究。到底誰才是壞人？」

快速道歉之後，信任回得來嗎？

Anthropic 的反應速度不慢。不到 24 小時，公司就透過《Wired》宣布改變 Fable 5 的前沿 AI 開發防護措施，從靜默改為可見。如果模型懷疑使用者正試圖建構高度先進的 AI，現在會明確告知正在拒絕請求，或將使用者導向較弱的模型。AI 政策專家 Dean Ball 表示，這解決了他對這次發布最核心的擔憂，但他也警告：「由此產生的殘留不信任和怨恨將會持續存在，而且衝擊範圍比 Anthropic 自身更廣。」

Hugging Face 的 Arthur Zucker 更為決絕：「你們打破了我們的信任，我不認為你們能再贏回來。我的 token 預算不會再飛向你們了。」開發者 David Kramer 提出了一個務實的商業觀點：就算撇開道德立場不談，他也會避開 Anthropic 的模型，因為他們不斷對可以建構的產品施加更多限制，「沒有人會想在一個完全封閉的生態系上開發」。Factory 執行長 Matan Grinberg 的評論或許是最精準的一句話：「Anthropic 從無懈可擊到變成壞人的速度，值得寫進教科書。」

LLM 研究降級的政策已經修正了，但企業資料留存政策還沒有。而那些讓 Anthropic 成為產業巨頭的核心企業使用者，可能對 LLM 研究限制毫不在意，但絕對不會接受自己的企業資料被 Anthropic 任意裁量。與此同時，競爭對手的下一步也不明朗。據報導，OpenAI 執行長奧特曼（Sam Altman）在 Slack 的訊息暗示下一個模型 GPT-5.6 尚未達到 Fable 的水準，而《華爾街日報》則報導 OpenAI 正考慮大幅調降 token 價格，可能引發全產業的價格戰。Anthropic 的信任危機加上 OpenAI 的潛在價格攻勢，整個產業的競爭格局可能正在重新洗牌。

Hugging Face 執行長 Clem Delangue 的這句話，或許最能概括這場風暴的長遠意義：「權力、能力和經濟財富的集中，是 AI 最大的風險。我們比以往任何時候都更需要開放科學和開源。」這場爭議真正讓人看清的，不是某個分類器太敏感或某條政策太冒進，而是前沿 AI 實驗室手中的權力，已經大到可以單方面決定誰能研究什麼、誰的資料要被保留、誰的輸出品質要被降級。當這些決定掌握在一家私人公司手中，問題就不再只是「這次的政策對不對」，而是「這樣的權力結構，我們能接受多久」。