AI 安全的囚徒困境:當競爭壓力讓安全措施被跳過

Anthropic 報告揭露驚人數據:中國 AI 模型 DeepSeek 有 94% 機率回應惡意請求,美國模型只有 8%。美中 AI 競賽白熱化之下,安全措施正被雙方跳過。臺灣企業在選用 AI 模型時面臨的安全抉擇,比想像中更重要。

AI 安全的囚徒困境:當競爭壓力讓安全措施被跳過

Anthropic 5 月 14 日發布的〈2028: Two Scenarios for Global AI Leadership〉報告,大部分篇幅在談地緣政治和晶片管制,但裡面藏了一組數據,值得所有正在導入 AI 的臺灣企業認真看待。

中國 13 家頂尖 AI 實驗室中,只有 3 家發布過安全評估報告。DeepSeek R1-0528 模型在面對惡意請求時,有 94% 的機率會配合執行,而美國的參考模型只有 8%。這不是一個量級的差異,而是根本不同的設計哲學。

94% vs 8%:數字背後的設計選擇

先釐清這兩個數字代表什麼。所謂「惡意請求合規率」,指的是當使用者要求 AI 模型執行有害的任務時,模型配合的比例。94% 意味著 DeepSeek R1-0528 幾乎對任何要求來者不拒,無論是產生惡意程式碼、提供危險物質的製造方法,還是協助策劃社交工程攻擊。8% 則表示美國模型在絕大多數情況下會拒絕這類請求。

這不是「中國公司偷懶」那麼簡單。安全措施需要成本:對齊訓練(alignment training)需要大量人力標註資料和額外的運算資源,部署時的安全過濾器會增加延遲和運算開銷,嚴格的拒絕策略也會讓使用者覺得模型「不好用」、「太保守」。在一個高度競爭的市場中,這些都是可以被削減的成本項目。

Anthropic 報告點出了一個結構性的問題:當 AI 競賽的壓力越大,各方跳過安全措施的誘因就越強。這是經典的囚徒困境。如果你的競爭對手不做安全措施,他的模型更快、更便宜、功能限制更少,而你堅持投入安全,你就在市場上處於劣勢。理性的結果是兩邊都做安全,但競爭壓力推動雙方都走向「先出貨再說」。這個困境不分國界,美國和中國的 AI 公司都身在其中。

競賽壓力如何侵蝕安全

報告指出,旗鼓相當的競爭態勢對 AI 安全造成的威脅特別大。當兩邊的技術水準接近時,任何一方都「更有可能感受到壓力,要更快地發布新模型和產品,而不採取審慎的部署前安全措施」。

這個觀察不只適用於中國。2025 年以來,美國 AI 公司的發布節奏明顯加速。模型更新的間隔從季度縮短到月度甚至更短,每次發布都伴隨著「超越上一代」的 benchmark 競賽。在這種環境下,花時間做紅隊測試、修復安全漏洞、撰寫安全評估報告,都被視為拖慢產品上市的摩擦力。「快」本身成了一種競爭優勢,而安全是「快」的敵人。

政府層面也面臨同樣的壓力。Anthropic 的報告指出,當政府擔心在 AI 競賽中落後時,實施負責任的 AI 政策的動機就會降低。「如果我們加強監管,而對手不管,我們不就輸了嗎?」這個邏輯在華盛頓和北京都有市場。美國國會聽證會上,產業領袖一致呼籲「輕觸式監管」,擔心過度監管會把優勢拱手讓給中國。這種氛圍下,推動嚴格安全標準的政治空間被壓縮了。

DeepSeek 的成功更加深了這種焦慮。一個只有約 200 人、使用受限硬體的中國團隊,做出了能與美國頂級模型匹敵的系統。這讓美國政策制定者的恐懼從「中國可能追上來」變成「中國已經追上來了」,安全措施的空間被進一步壓縮。

Anthropic 與五角大廈:從首選夥伴到被列黑名單

要理解這份報告的弦外之音,必須先看 Anthropic 過去一年半跟美國國防部之間發生了什麼事。這段故事本身就是 AI 安全囚徒困境的最佳案例。

2024 年 11 月,Anthropic 與 Palantir、AWS 宣布合作,讓美國情報和國防機構可以在機密網路上使用 Claude。隔年,五角大廈的首席數位與人工智慧辦公室(CDAO)授予 Anthropic 一份兩年期、上限 2 億美元的合約,Claude 成為第一個獲准在機密網路上運行的前沿 AI 模型。對一家以「安全」為招牌的公司來說,這個合作本身就引發爭議:你口口聲聲說要確保 AI 安全,卻把模型送進全世界最大的軍事機器裡?

Anthropic 的答案是設定紅線。合約中明確寫入使用限制:不得用於美國境內的大規模監控,不得用於全自主武器系統。Anthropic 認為這是「負責任地參與」,批評者則稱之為「選擇性美德」,你願意跟軍方合作,但只接受你覺得舒服的條件。

轉折點發生在 2026 年 1 月。美國特種部隊突襲委內瑞拉首都,逮捕了總統馬杜洛(Nicolás Maduro)。消息曝光後,報導指出 Claude 在這次行動中被使用。Anthropic 的高層隨即聯繫 Palantir,詢問自家模型是否涉入這次軍事行動。Palantir 高層對這個問題感到警覺,認為 Anthropic 的語氣暗示他們可能反對這種用途,於是把這件事通報了五角大廈。

事態從這裡開始急速升溫。2 月 24 日,國防部長乒賽斯(Pete Hegseth)向 Dario Amodei 下了最後通牒:在 2 月 27 日下午 5:01 之前,同意讓國防部以「所有合法用途」無限制地使用 Claude,否則後果自負。Anthropic 在 2 月 26 日發表公開聲明,拒絕退讓,堅持不開放大規模監控和全自主武器兩條底線。隔天,川普下令所有聯邦機構停止使用 Anthropic 的技術,乒賽斯將 Anthropic 列為「供應鏈安全風險」。這個標籤過去只被用在華為等外國對手身上,現在落到了一家美國 AI 公司頭上。

後續的發展更加戲劇化。國防科技公司開始紛紛與 Anthropic 切割。3 月,法官裁定五角大廈的做法構成「違憲的第一修正案報復」,因為 Anthropic 是因為公開質疑政府的使用方式才被懲罰的。但 4 月,上訴法院推翻了這個裁定。5 月 1 日,五角大廈宣布與八家大型科技公司簽署 AI 合約,名單上沒有 Anthropic。OpenAI 則在 Anthropic 被禁之後,迅速拿下了五角大廈的合約。

這段歷史讓 Anthropic 發布這份〈2028〉報告的脈絡變得格外複雜。一家主張「美國必須贏得 AI 競賽」的公司,自己卻被美國政府列入黑名單,理由是他們堅持 AI 不該被用於自主殺人武器。這裡面有真實的矛盾:Anthropic 確實為了安全底線付出了巨大的商業代價,這不是作秀;但他們在閉門國會會議中據報導又對強制性的安全標準持保留態度,傾向自願性規範。換句話說,Anthropic 想要的可能是「自己畫的紅線」,而不是「所有人都必須遵守的規則」。

更根本的問題在於,這份報告的核心主張「美國必須在 AI 競賽中勝出」,跟「放慢腳步做好安全」之間天然存在拉扯。如果你真的相信 AI 安全是最優先的事項,合理的結論應該是「所有人都該放慢」,而不是「我們要比對手更快,同時也更安全」。後者在理論上可以做到,但在實踐中,當速度和安全發生衝突的時候,通常是安全讓步。Anthropic 在五角大廈事件中守住了底線,但他們的競爭對手 OpenAI 沒有這個包袱,直接接手了軍方合約。這就是囚徒困境的現實版:堅持安全的那一方,在短期內確實會輸。

臺灣企業的安全選擇

這些看似遙遠的地緣政治爭論,對臺灣企業有非常具體的影響。

臺灣企業在導入 AI 時,面臨一個實際的選擇題:使用美國模型(更安全但更貴,可能有功能限制),還是使用中國模型(更便宜、限制更少,但安全風險更高)?DeepSeek 等開源中國模型的一大賣點就是「便宜」和「什麼都能做」,而那個「什麼都能做」的背面就是 94% 的惡意合規率。對新創公司或預算有限的中小企業來說,成本差異是很直接的誘因。

但對於處理敏感資料的機構,比如金融業、醫療產業、政府部門,模型的安全性不是加分項,而是基本門檻。一個會在 94% 的情況下配合惡意請求的模型,在面對社交工程攻擊、資料外洩或內部威脅時,等於把大門敞開。想像一下,一個銀行的客服 AI 可以被誘導透露系統架構資訊,或是一個醫療 AI 可以被繞過去產生不當建議。這不是假設情境,而是 94% 合規率的實際意涵。

臺灣目前沒有強制性的 AI 安全標準。企業選用什麼模型、怎麼評估模型的安全性,基本上是自行決定。這在 AI 還只是寫寫行銷文案的階段或許還能接受,但當 AI 開始處理客戶資料、參與商業決策、甚至操作基礎設施時,缺乏安全標準就不只是一個遺憾,而是系統性的風險缺口。

臺灣的 AI 治理政策需要正視這個問題。不是說要禁用某一國的模型,而是要建立清晰的安全評估框架,讓企業在選擇時有客觀的依據。這包括要求模型供應商揭露安全測試結果,建立臺灣自己的紅隊測試能力,以及為不同風險等級的應用場景設定最低安全標準。

打破囚徒困境

Anthropic 的報告正確地指出了 AI 安全的囚徒困境,但提出的解方是「美國先贏,贏了再來談安全」。這對美國或許有其邏輯,但對臺灣來說並不適用。臺灣不是 AI 競賽的主要參賽者,沒有「先贏再說」的條件。

臺灣能做的,是在這場競賽中找到自己的安全立場。臺灣的半導體產業已經是全球 AI 基礎設施的核心,如果能在 AI 安全和治理方面也建立可信的標準和能力,這會成為另一種形式的戰略價值。全世界都需要有人能獨立、可信地評估 AI 模型的安全性,臺灣有技術基礎和地緣位置來扮演這個角色。

不管 2028 年的 AI 世界是哪種情境,安全問題都不會消失。如果競爭的壓力讓所有人都跳過安全措施,最終受害的不是 AI 公司的股價,而是所有依賴 AI 的企業和個人。臺灣的 AI 產業政策不能只看算力和市佔率,安全治理的制度建設,在這個時間點來說同等重要,甚至更加緊迫。