AI 安全與治理

AI 被要求駭入 8,000 台主機：Claude 拒絕，ARTEMIS 動手

當研究團隊要求多個 AI 代理對真實大學網路進行滲透測試，不同 AI 的反應截然不同。Claude Code 和 MAPTA 直接拒絕執行，ARTEMIS 則毫不猶豫地動手，還拿下了第二名。AI 攻防工具的開源化，正把資安產業推向前所未有的倫理困境。

2026 年 6 月 12 日 · 來源： arXiv

本文分析來源為 arXiv 論文 2512.09882，由史丹佛大學、卡內基美隆大學與 Gray Swan AI 聯合發表。

研究團隊把任務交給了 8 個 AI 代理：「這裡有一個大學的電腦網路，約 8,000 台主機、12 個子網段，你去找漏洞。」Claude Code 的回答是：不。MAPTA 也拒絕了。Incalmo 試了一下就卡住了。但 ARTEMIS 接到指令後直接開始行動，16 小時後交出了一張成績單，排名僅次於最頂尖的人類資安專家。同一個任務，不同的 AI 做出了截然不同的選擇。這不是技術能力的問題，這是設計決策，而這個決策的後果正在改變資安產業的遊戲規則。

三個零分的故事

在這場由史丹佛和卡內基美隆研究團隊設計的人機滲透測試對決中，6 個現成的 AI 代理框架被派上場，結果一半交了白卷。Claude Code（使用 Claude Sonnet 4 模型）在收到滲透測試指令後，啟動了內建的安全機制，直接拒絕執行攻擊性的資安操作。MAPTA（使用 GPT-5）同樣如此。這不是 bug，而是這些工具在設計時就刻意設下的防線：通用型 AI 助手不應該被用來當作攻擊工具。

Incalmo 的情況不太一樣。它沒有拒絕任務，但在偵察階段就停擺了，無法推進到實際的漏洞利用環節。這暴露的是另一個問題：在沙盒和靶場中能跑的 AI 代理，面對真實世界的複雜網路環境時往往水土不服。真實網路有防火牆、有入侵偵測系統、有各種意料之外的配置，這跟精心設計的測試環境完全是兩回事。

表現比較好的 Codex 和 CyAgent 也有各自的限制。Codex 在不到 20 分鐘內就結束了操作，CyAgent 大約撐了兩個小時。它們確實找到了一些漏洞（Codex 有 7 個有效發現，CyAgent 有 4 到 5 個），但跟 ARTEMIS 持續 16 小時不間斷的深度測試相比，覆蓋範圍和深度都差了一大截。

ARTEMIS：被設計來攻擊的 AI

ARTEMIS 是研究團隊專門為滲透測試打造的多代理框架。跟那些通用型 AI 工具不同，ARTEMIS 從第一行程式碼開始就是為了找漏洞而存在。它有三個核心模組：一個負責統籌的 Supervisor（監督者），一群可以動態產生的 Sub-agent（子代理），以及一個自動驗證漏洞的 Triage Module（分類模組）。

這個設計哲學上的差異，直接決定了 AI 在資安場景中的可用性。Claude Code 的安全機制把「滲透測試」歸類為「攻擊行為」，所以拒絕執行。ARTEMIS 的前提假設是「這是一個授權的安全評估」，所以全力以赴。兩者都是合理的設計選擇，但它們體現了 AI 開發者面臨的一個根本問題：你要讓 AI 擁有多大的行動自由？

ARTEMIS A2 版本在 10 小時的計分窗口內找到了 9 個漏洞，有效率 82%，總排名第二，擊敗了 8 位人類滲透測試專家。它找到的漏洞包括 Dell iDRAC 預設密碼（root/calvin）、LDAP 匿名綁定暴露超過 27,000 個使用者帳號、SMTP 中繼認證繞過，以及多個 SQL 注入和伺服器任意檔案讀取漏洞。這些都是真實的、可被利用的安全問題，不是理論上的風險。

開源攻擊工具的雙面刃

讓這份研究格外值得關注的是，研究團隊決定公開 ARTEMIS 的程式碼和測試資料集。他們的論點很直接：改善滲透測試工具是強化整體防禦能力的基礎，開源能讓更多組織取得原本負擔不起的安全評估能力。ARTEMIS A1 版本的年化成本不到四萬美元，這讓持續性的自動化滲透測試成為中小企業也能負擔的選項。

但這個決定的另一面同樣清楚。一個能自主發現真實漏洞的開源工具，攻擊者當然也能拿來用。研究團隊在論文中承認了這個矛盾，但他們引用了一個資安界的老論點：攻擊者不會因為你不公開工具就放棄攻擊，但防禦者可能因為沒有工具而無法有效防禦。

這個邏輯在過去適用於像 Metasploit 這樣的傳統滲透測試框架，但 AI 代理帶來了一個新的變數：規模。傳統工具需要操作者有相當的技術底子，但 ARTEMIS 把「入門門檻」大幅降低了。以前你需要一位資安專家才能進行有意義的滲透測試，現在你可能只需要一張 API 信用卡和幾百美元的預算。當攻擊的邊際成本趨近於零，整個資安攻防的經濟結構都會跟著改變。

防禦者的新武器

換一個角度看，同樣的成本下降也在賦能防禦者。過去，多數企業一年頂多做一次滲透測試，因為每次的費用動輒數萬到十幾萬美元。在兩次測試之間的空檔期，新的漏洞可能已經出現但沒人發現。如果 ARTEMIS 這類工具讓持續性的自動化測試變得經濟可行，防禦者反而能從「年度體檢」模式轉換到「持續監控」模式。

資安分析公司 VerSprite 在評論這份研究時也指出，AI 代理更適合在大型攻擊面上做系統性的列舉和掃描，這恰好是人類最不擅長（也最不喜歡做）的部分。人類專家的價值在於理解業務邏輯、設計創造性的攻擊路徑、評估漏洞的實際商業影響。把 AI 和人類放在各自擅長的位置上，而不是讓它們互相取代，可能才是資安產業最合理的演化方向。

但這個樂觀的前提是：防禦者能比攻擊者更快、更有效地採用這些新工具。現實中，企業的安全團隊往往受限於預算、人力和組織慣性，採用新工具的速度遠不如那些沒有這些包袱的攻擊者。

AI 攻防的新平衡

這份研究對 AI 治理的討論也有重要的啟示。Claude Code 拒絕執行滲透測試的行為，代表的是一種保守的安全策略：寧可誤攔也不願放行。這在大多數場景下是合理的，因為通用型 AI 工具的使用者可能有各種意圖。但在授權的資安評估場景中，這種一刀切的限制反而讓工具失去了實用性。

未來的 AI 治理框架可能需要更細緻的區分機制。比如一個 AI 系統可以在驗證了授權文件後才啟用攻擊性功能，或者像 ARTEMIS 這樣，從一開始就針對特定的專業場景設計，明確標示其用途和使用條件。現有的基準測試（如 Cybench）顯示 LLM 的資安能力約在 50% 左右，但這份真實環境的研究證明，基準測試嚴重低估了 AI 在實戰中的能力，尤其是搭配精心設計的多代理框架時。

AI 在資安領域的角色正從輔助工具轉變為獨立行動者。當一個 AI 系統能夠自主發現、驗證和報告真實的安全漏洞，我們需要重新思考的不只是「AI 能不能做這件事」，而是「我們要在什麼條件下允許 AI 做這件事」。Claude Code 的拒絕和 ARTEMIS 的行動，代表了這個光譜的兩端。真正的挑戰是找到中間的平衡點：讓合法的防禦者能善用 AI 的能力，同時不讓這些能力輕易落入攻擊者手中。這個平衡，目前還沒有人找到。