Claude Fable 5 全面開放:Anthropic 用「查詢降級」取代拒絕的安全新思路
Anthropic 同時發布 Claude Fable 5(公開)與 Mythos 5(限定),首創「查詢降級」安全策略,5% 對話被轉交 Opus 4.8 處理。定價為 Opus 4.8 兩倍,早期企業反應強烈正面。同日微軟 70 多個 GitHub 倉庫遭駭客植入竊密程式。

本文整理自《Techmeme Ride Home》2026 年 6 月播出的單集。
Anthropic 在 6 月 9 日做了一件耐人尋味的事:同時發布兩款新模型,卻給它們設定了截然不同的使用權限。Claude Fable 5 對所有人開放,Claude Mythos 5 則只提供給一小群經過篩選的信任夥伴,包括 Project Glasswing 的參與者、特定生物學研究人員,以及美國政府的合作對象。兩款模型共享同一個底層架構,差別在於 Fable 5 多了一套安全護欄。這不是一次普通的產品更新,而是 Anthropic 對「怎麼把危險能力安全推向市場」這個問題的一次具體回答。
這個安排的背景要回到今年四月。當時 Anthropic 推出 Mythos 預覽版時,就因為擔心模型的軟體漏洞發現能力被惡意利用而限縮了發布範圍。兩個月後,Fable 5 就是他們想出來的折衷方案:讓一般使用者也能用到 Mythos 級的能力,但在最敏感的領域加上一道保險。Anthropic 在部落格中也提到,會持續提供無限制版本給少數既有客戶,「直到我們的信任存取方案準備好為止」,暗示未來還會進一步擴大存取範圍。
不拒絕,改「降級」:一套全新的安全思路
Fable 5 的安全機制和業界過去常見的做法不太一樣。多數 AI 公司碰到敏感查詢的標準處理方式是直接拒絕回答,使用者只會看到「我無法回應這個問題」之類的訊息。Anthropic 選了一條不同的路:不擋你的問題,但悄悄把它交給能力較弱的舊模型來處理。具體來說,Fable 5 內建了一套安全分類器,會偵測涉及資安、生物學和化學的查詢,把這些請求轉交給 Claude Opus 4.8 來回答。如果系統懷疑使用者正在嘗試「蒸餾」,也就是用 Fable 5 的輸出來訓練自己的小模型,同樣會觸發降級。
Anthropic 產品管理負責人 Diane Penn 在接受《Wired》採訪時坦言,這套分類器刻意設計得偏保守。大約 5% 的對話會觸發降級,其中必然包含一些完全無害的查詢。「在所有不同的方案中,這個方案是最可行也是最好的,」Penn 說,「我們覺得這是讓使用者從 Fable 5 獲得最大價值的最佳產品選擇。」團隊計畫隨時間逐步提高分類器的精準度,但她認為以目前的技術狀態,這是唯一能讓 Mythos 級模型安全走向大眾的途徑。
在安全驗證方面,Anthropic 的內部和外部紅隊測試沒有找到任何能通用地繞過 Fable 5 防線的越獄手法。公司也宣布會保留使用者流量紀錄 30 天,配合川普總統近期簽署的 AI 行政命令。但 Anthropic 自己也清楚,這道安全領先不會持續太久。公司反覆強調,其他競爭者,包括開源陣營,遲早都會推出同等級的能力。Fable 5 的分級發布策略與其說是護城河,不如說是搶先做正確的事的時間窗口。
企業初體驗:很強,但帳單也很驚人
早期企業使用者的反應相當正面。Vibe coding 平台 Base44 表示 Fable 5「在一次生成完整應用程式方面深入得多,工具呼叫能力也很出色」。AI 工作空間 GenSpark 更直接:Fable 5 在他們的內部評測中排名第一,「在最困難的任務上,包括 UI 設計和遊戲開發,明顯比我們測過的每一個模型都強」。電商平台樂天(Rakuten)則看中 Fable 5 在最高推理層級下能反思並驗證自己的輸出,稱「這正是讓高度自主操作成為可能的關鍵,額外的思考成本會回本」。
但這個「回本」的前提是你付得起。Fable 5 和 Mythos 5 的定價是每百萬輸入 token 10 美元、每百萬輸出 token 50 美元,大約是 Opus 4.8 的兩倍。這個價格落在一個微妙的時間點上。據《TechCrunch》報導,不少企業已經開始抱怨 AI 成本失控,有些甚至提前花光了年度 AI 預算。進階推理模型像 Opus 4.8 會把一個使用者請求自動拆成多個子任務來處理,token 消耗因此成倍增長。Fable 5 更高的單價只會讓這個問題更尖銳。不過 Anthropic 對需求的預期似乎很樂觀,稱預期需求「非常高且難以預測」。
AI 開發工具鏈的安全隱憂
Fable 5 發布的同一天,另一則新聞也給 AI 產業敲了警鐘。微軟(Microsoft)在 GitHub 上停用了超過 70 個自家倉庫,包括 Azure Functions Host 等 Azure 相關工具,以及被 Cloud Code、Gemini CLI 和 VS Code 等 AI 開發環境使用的元件。原因是駭客成功在這些專案中植入了竊取密碼和憑證的惡意程式。當開發者在 AI 程式編輯工具中開啟這些受感染的套件時,憑證就會被偷走。
資安公司 CloudSmith 和社群驅動的惡意軟體分析網站 OpenSourceMalware 是最早發出警報的機構,404 Media 率先報導了微軟的倉庫下架行動。微軟發言人 Ben Hope 確認已暫時移除受影響的倉庫,部分經過審查後已恢復上線,並表示已通知少數可能下載過受影響內容的客戶。被停用的倉庫在 GitHub 上顯示「因違反使用條款而被停用」的訊息,但微軟沒有公布受影響使用者的確切數量。
這起事件的嚴重性在於:被植入惡意程式的不是某個小型開源專案,而是微軟自己的官方倉庫。當越來越多開發者仰賴 AI 工具來寫程式碼,這些工具背後的供應鏈安全就不再是「別人的問題」,它直接影響每一個用 AI 輔助開發的工程師。
我的觀察
Anthropic 的「降級而非拒絕」策略在安全設計上是一個有意思的轉折。與其讓使用者碰壁然後轉去找其他沒有防護的替代方案,不如給一個「夠用但沒那麼強」的回答。這在心理上降低了使用者刻意繞過安全機制的動機。但 5% 的降級率也意味著每 20 次互動就可能有一次讓使用者感覺品質突然下降,而且他們未必知道原因。這種「不告知就降級」的做法在使用者體驗上是否站得住腳,是 Anthropic 接下來會面臨的一個考驗。
再搭配微軟 GitHub 遭駭的事件來看,AI 產業面臨的安全挑戰其實是雙重的。一邊是模型能力本身會不會被壞人利用,Fable 5 的分類器試圖處理這個問題。另一邊是開發工具的供應鏈是否值得信任,這個問題可能更棘手,因為它牽涉到的不只是 AI 公司的決策,而是整個軟體開發生態系的脆弱性。兩個問題都沒有簡單的答案,但至少在前者上,Anthropic 走出了一條值得觀察的新路。