AI 安全與治理

AI 安全的囚徒困境：當競爭壓力讓安全措施被跳過

Anthropic 報告揭露驚人數據：中國 AI 模型 DeepSeek 有 94% 機率回應惡意請求，美國模型只有 8%。美中 AI 競賽白熱化之下，安全措施正被雙方跳過。臺灣企業在選用 AI 模型時面臨的安全抉擇，比想像中更重要。

2026 年 5 月 18 日 · 來源： Anthropic

Anthropic 5 月 14 日發布的〈2028: Two Scenarios for Global AI Leadership〉報告，大部分篇幅在談地緣政治和晶片管制，但裡面藏了一組數據，值得所有正在導入 AI 的臺灣企業認真看待。

中國 13 家頂尖 AI 實驗室中，只有 3 家發布過安全評估報告。DeepSeek R1-0528 模型在面對惡意請求時，有 94% 的機率會配合執行，而美國的參考模型只有 8%。這不是一個量級的差異，而是根本不同的設計哲學。

94% vs 8%：數字背後的設計選擇

先釐清這兩個數字代表什麼。所謂「惡意請求合規率」，指的是當使用者要求 AI 模型執行有害的任務時，模型配合的比例。94% 意味著 DeepSeek R1-0528 幾乎對任何要求來者不拒，無論是產生惡意程式碼、提供危險物質的製造方法，還是協助策劃社交工程攻擊。8% 則表示美國模型在絕大多數情況下會拒絕這類請求。

這不是「中國公司偷懶」那麼簡單。安全措施需要成本：對齊訓練（alignment training）需要大量人力標註資料和額外的運算資源，部署時的安全過濾器會增加延遲和運算開銷，嚴格的拒絕策略也會讓使用者覺得模型「不好用」、「太保守」。在一個高度競爭的市場中，這些都是可以被削減的成本項目。

Anthropic 報告點出了一個結構性的問題：當 AI 競賽的壓力越大，各方跳過安全措施的誘因就越強。這是經典的囚徒困境。如果你的競爭對手不做安全措施，他的模型更快、更便宜、功能限制更少，而你堅持投入安全，你就在市場上處於劣勢。理性的結果是兩邊都做安全，但競爭壓力推動雙方都走向「先出貨再說」。這個困境不分國界，美國和中國的 AI 公司都身在其中。

競賽壓力如何侵蝕安全

報告指出，旗鼓相當的競爭態勢對 AI 安全造成的威脅特別大。當兩邊的技術水準接近時，任何一方都「更有可能感受到壓力，要更快地發布新模型和產品，而不採取審慎的部署前安全措施」。

這個觀察不只適用於中國。2025 年以來，美國 AI 公司的發布節奏明顯加速。模型更新的間隔從季度縮短到月度甚至更短，每次發布都伴隨著「超越上一代」的 benchmark 競賽。在這種環境下，花時間做紅隊測試、修復安全漏洞、撰寫安全評估報告，都被視為拖慢產品上市的摩擦力。「快」本身成了一種競爭優勢，而安全是「快」的敵人。

政府層面也面臨同樣的壓力。Anthropic 的報告指出，當政府擔心在 AI 競賽中落後時，實施負責任的 AI 政策的動機就會降低。「如果我們加強監管，而對手不管，我們不就輸了嗎？」這個邏輯在華盛頓和北京都有市場。美國國會聽證會上，產業領袖一致呼籲「輕觸式監管」，擔心過度監管會把優勢拱手讓給中國。這種氛圍下，推動嚴格安全標準的政治空間被壓縮了。

DeepSeek 的成功更加深了這種焦慮。一個只有約 200 人、使用受限硬體的中國團隊，做出了能與美國頂級模型匹敵的系統。這讓美國政策制定者的恐懼從「中國可能追上來」變成「中國已經追上來了」，安全措施的空間被進一步壓縮。

Anthropic 與五角大廈：從首選夥伴到被列黑名單

要理解這份報告的弦外之音，必須先看 Anthropic 過去一年半跟美國國防部之間發生了什麼事。這段故事本身就是 AI 安全囚徒困境的最佳案例。

2024 年 11 月，Anthropic 與 Palantir、AWS 宣布合作，讓美國情報和國防機構可以在機密網路上使用 Claude。隔年，五角大廈的首席數位與人工智慧辦公室（CDAO）授予 Anthropic 一份兩年期、上限 2 億美元的合約，Claude 成為第一個獲准在機密網路上運行的前沿 AI 模型。對一家以「安全」為招牌的公司來說，這個合作本身就引發爭議：你口口聲聲說要確保 AI 安全，卻把模型送進全世界最大的軍事機器裡？

Anthropic 的答案是設定紅線。合約中明確寫入使用限制：不得用於美國境內的大規模監控，不得用於全自主武器系統。Anthropic 認為這是「負責任地參與」，批評者則稱之為「選擇性美德」，你願意跟軍方合作，但只接受你覺得舒服的條件。

轉折點發生在 2026 年 1 月。美國特種部隊突襲委內瑞拉首都，逮捕了總統馬杜洛（Nicolás Maduro）。消息曝光後，報導指出 Claude 在這次行動中被使用。Anthropic 的高層隨即聯繫 Palantir，詢問自家模型是否涉入這次軍事行動。Palantir 高層對這個問題感到警覺，認為 Anthropic 的語氣暗示他們可能反對這種用途，於是把這件事通報了五角大廈。

事態從這裡開始急速升溫。2 月 24 日，國防部長乒賽斯（Pete Hegseth）向 Dario Amodei 下了最後通牒：在 2 月 27 日下午 5:01 之前，同意讓國防部以「所有合法用途」無限制地使用 Claude，否則後果自負。Anthropic 在 2 月 26 日發表公開聲明，拒絕退讓，堅持不開放大規模監控和全自主武器兩條底線。隔天，川普下令所有聯邦機構停止使用 Anthropic 的技術，乒賽斯將 Anthropic 列為「供應鏈安全風險」。這個標籤過去只被用在華為等外國對手身上，現在落到了一家美國 AI 公司頭上。

後續的發展更加戲劇化。國防科技公司開始紛紛與 Anthropic 切割。3 月，法官裁定五角大廈的做法構成「違憲的第一修正案報復」，因為 Anthropic 是因為公開質疑政府的使用方式才被懲罰的。但 4 月，上訴法院推翻了這個裁定。5 月 1 日，五角大廈宣布與八家大型科技公司簽署 AI 合約，名單上沒有 Anthropic。OpenAI 則在 Anthropic 被禁之後，迅速拿下了五角大廈的合約。

這段歷史讓 Anthropic 發布這份〈2028〉報告的脈絡變得格外複雜。一家主張「美國必須贏得 AI 競賽」的公司，自己卻被美國政府列入黑名單，理由是他們堅持 AI 不該被用於自主殺人武器。這裡面有真實的矛盾：Anthropic 確實為了安全底線付出了巨大的商業代價，這不是作秀；但他們在閉門國會會議中據報導又對強制性的安全標準持保留態度，傾向自願性規範。換句話說，Anthropic 想要的可能是「自己畫的紅線」，而不是「所有人都必須遵守的規則」。

更根本的問題在於，這份報告的核心主張「美國必須在 AI 競賽中勝出」，跟「放慢腳步做好安全」之間天然存在拉扯。如果你真的相信 AI 安全是最優先的事項，合理的結論應該是「所有人都該放慢」，而不是「我們要比對手更快，同時也更安全」。後者在理論上可以做到，但在實踐中，當速度和安全發生衝突的時候，通常是安全讓步。Anthropic 在五角大廈事件中守住了底線，但他們的競爭對手 OpenAI 沒有這個包袱，直接接手了軍方合約。這就是囚徒困境的現實版：堅持安全的那一方，在短期內確實會輸。

臺灣企業的安全選擇

這些看似遙遠的地緣政治爭論，對臺灣企業有非常具體的影響。

臺灣企業在導入 AI 時，面臨一個實際的選擇題：使用美國模型（更安全但更貴，可能有功能限制），還是使用中國模型（更便宜、限制更少，但安全風險更高）？DeepSeek 等開源中國模型的一大賣點就是「便宜」和「什麼都能做」，而那個「什麼都能做」的背面就是 94% 的惡意合規率。對新創公司或預算有限的中小企業來說，成本差異是很直接的誘因。

但對於處理敏感資料的機構，比如金融業、醫療產業、政府部門，模型的安全性不是加分項，而是基本門檻。一個會在 94% 的情況下配合惡意請求的模型，在面對社交工程攻擊、資料外洩或內部威脅時，等於把大門敞開。想像一下，一個銀行的客服 AI 可以被誘導透露系統架構資訊，或是一個醫療 AI 可以被繞過去產生不當建議。這不是假設情境，而是 94% 合規率的實際意涵。

臺灣目前沒有強制性的 AI 安全標準。企業選用什麼模型、怎麼評估模型的安全性，基本上是自行決定。這在 AI 還只是寫寫行銷文案的階段或許還能接受，但當 AI 開始處理客戶資料、參與商業決策、甚至操作基礎設施時，缺乏安全標準就不只是一個遺憾，而是系統性的風險缺口。

臺灣的 AI 治理政策需要正視這個問題。不是說要禁用某一國的模型，而是要建立清晰的安全評估框架，讓企業在選擇時有客觀的依據。這包括要求模型供應商揭露安全測試結果，建立臺灣自己的紅隊測試能力，以及為不同風險等級的應用場景設定最低安全標準。

打破囚徒困境

Anthropic 的報告正確地指出了 AI 安全的囚徒困境，但提出的解方是「美國先贏，贏了再來談安全」。這對美國或許有其邏輯，但對臺灣來說並不適用。臺灣不是 AI 競賽的主要參賽者，沒有「先贏再說」的條件。

臺灣能做的，是在這場競賽中找到自己的安全立場。臺灣的半導體產業已經是全球 AI 基礎設施的核心，如果能在 AI 安全和治理方面也建立可信的標準和能力，這會成為另一種形式的戰略價值。全世界都需要有人能獨立、可信地評估 AI 模型的安全性，臺灣有技術基礎和地緣位置來扮演這個角色。

不管 2028 年的 AI 世界是哪種情境，安全問題都不會消失。如果競爭的壓力讓所有人都跳過安全措施，最終受害的不是 AI 公司的股價，而是所有依賴 AI 的企業和個人。臺灣的 AI 產業政策不能只看算力和市佔率，安全治理的制度建設，在這個時間點來說同等重要，甚至更加緊迫。