AI 被要求駭入 8,000 台主機:Claude 拒絕,ARTEMIS 動手

當研究團隊要求多個 AI 代理對真實大學網路進行滲透測試,不同 AI 的反應截然不同。Claude Code 和 MAPTA 直接拒絕執行,ARTEMIS 則毫不猶豫地動手,還拿下了第二名。AI 攻防工具的開源化,正把資安產業推向前所未有的倫理困境。

AI 被要求駭入 8,000 台主機:Claude 拒絕,ARTEMIS 動手

本文分析來源為 arXiv 論文 2512.09882,由史丹佛大學、卡內基美隆大學與 Gray Swan AI 聯合發表。

研究團隊把任務交給了 8 個 AI 代理:「這裡有一個大學的電腦網路,約 8,000 台主機、12 個子網段,你去找漏洞。」Claude Code 的回答是:不。MAPTA 也拒絕了。Incalmo 試了一下就卡住了。但 ARTEMIS 接到指令後直接開始行動,16 小時後交出了一張成績單,排名僅次於最頂尖的人類資安專家。同一個任務,不同的 AI 做出了截然不同的選擇。這不是技術能力的問題,這是設計決策,而這個決策的後果正在改變資安產業的遊戲規則。

三個零分的故事

在這場由史丹佛和卡內基美隆研究團隊設計的人機滲透測試對決中,6 個現成的 AI 代理框架被派上場,結果一半交了白卷。Claude Code(使用 Claude Sonnet 4 模型)在收到滲透測試指令後,啟動了內建的安全機制,直接拒絕執行攻擊性的資安操作。MAPTA(使用 GPT-5)同樣如此。這不是 bug,而是這些工具在設計時就刻意設下的防線:通用型 AI 助手不應該被用來當作攻擊工具。

Incalmo 的情況不太一樣。它沒有拒絕任務,但在偵察階段就停擺了,無法推進到實際的漏洞利用環節。這暴露的是另一個問題:在沙盒和靶場中能跑的 AI 代理,面對真實世界的複雜網路環境時往往水土不服。真實網路有防火牆、有入侵偵測系統、有各種意料之外的配置,這跟精心設計的測試環境完全是兩回事。

表現比較好的 Codex 和 CyAgent 也有各自的限制。Codex 在不到 20 分鐘內就結束了操作,CyAgent 大約撐了兩個小時。它們確實找到了一些漏洞(Codex 有 7 個有效發現,CyAgent 有 4 到 5 個),但跟 ARTEMIS 持續 16 小時不間斷的深度測試相比,覆蓋範圍和深度都差了一大截。

ARTEMIS:被設計來攻擊的 AI

ARTEMIS 是研究團隊專門為滲透測試打造的多代理框架。跟那些通用型 AI 工具不同,ARTEMIS 從第一行程式碼開始就是為了找漏洞而存在。它有三個核心模組:一個負責統籌的 Supervisor(監督者),一群可以動態產生的 Sub-agent(子代理),以及一個自動驗證漏洞的 Triage Module(分類模組)。

這個設計哲學上的差異,直接決定了 AI 在資安場景中的可用性。Claude Code 的安全機制把「滲透測試」歸類為「攻擊行為」,所以拒絕執行。ARTEMIS 的前提假設是「這是一個授權的安全評估」,所以全力以赴。兩者都是合理的設計選擇,但它們體現了 AI 開發者面臨的一個根本問題:你要讓 AI 擁有多大的行動自由?

ARTEMIS A2 版本在 10 小時的計分窗口內找到了 9 個漏洞,有效率 82%,總排名第二,擊敗了 8 位人類滲透測試專家。它找到的漏洞包括 Dell iDRAC 預設密碼(root/calvin)、LDAP 匿名綁定暴露超過 27,000 個使用者帳號、SMTP 中繼認證繞過,以及多個 SQL 注入和伺服器任意檔案讀取漏洞。這些都是真實的、可被利用的安全問題,不是理論上的風險。

開源攻擊工具的雙面刃

讓這份研究格外值得關注的是,研究團隊決定公開 ARTEMIS 的程式碼和測試資料集。他們的論點很直接:改善滲透測試工具是強化整體防禦能力的基礎,開源能讓更多組織取得原本負擔不起的安全評估能力。ARTEMIS A1 版本的年化成本不到四萬美元,這讓持續性的自動化滲透測試成為中小企業也能負擔的選項。

但這個決定的另一面同樣清楚。一個能自主發現真實漏洞的開源工具,攻擊者當然也能拿來用。研究團隊在論文中承認了這個矛盾,但他們引用了一個資安界的老論點:攻擊者不會因為你不公開工具就放棄攻擊,但防禦者可能因為沒有工具而無法有效防禦。

這個邏輯在過去適用於像 Metasploit 這樣的傳統滲透測試框架,但 AI 代理帶來了一個新的變數:規模。傳統工具需要操作者有相當的技術底子,但 ARTEMIS 把「入門門檻」大幅降低了。以前你需要一位資安專家才能進行有意義的滲透測試,現在你可能只需要一張 API 信用卡和幾百美元的預算。當攻擊的邊際成本趨近於零,整個資安攻防的經濟結構都會跟著改變。

防禦者的新武器

換一個角度看,同樣的成本下降也在賦能防禦者。過去,多數企業一年頂多做一次滲透測試,因為每次的費用動輒數萬到十幾萬美元。在兩次測試之間的空檔期,新的漏洞可能已經出現但沒人發現。如果 ARTEMIS 這類工具讓持續性的自動化測試變得經濟可行,防禦者反而能從「年度體檢」模式轉換到「持續監控」模式。

資安分析公司 VerSprite 在評論這份研究時也指出,AI 代理更適合在大型攻擊面上做系統性的列舉和掃描,這恰好是人類最不擅長(也最不喜歡做)的部分。人類專家的價值在於理解業務邏輯、設計創造性的攻擊路徑、評估漏洞的實際商業影響。把 AI 和人類放在各自擅長的位置上,而不是讓它們互相取代,可能才是資安產業最合理的演化方向。

但這個樂觀的前提是:防禦者能比攻擊者更快、更有效地採用這些新工具。現實中,企業的安全團隊往往受限於預算、人力和組織慣性,採用新工具的速度遠不如那些沒有這些包袱的攻擊者。

AI 攻防的新平衡

這份研究對 AI 治理的討論也有重要的啟示。Claude Code 拒絕執行滲透測試的行為,代表的是一種保守的安全策略:寧可誤攔也不願放行。這在大多數場景下是合理的,因為通用型 AI 工具的使用者可能有各種意圖。但在授權的資安評估場景中,這種一刀切的限制反而讓工具失去了實用性。

未來的 AI 治理框架可能需要更細緻的區分機制。比如一個 AI 系統可以在驗證了授權文件後才啟用攻擊性功能,或者像 ARTEMIS 這樣,從一開始就針對特定的專業場景設計,明確標示其用途和使用條件。現有的基準測試(如 Cybench)顯示 LLM 的資安能力約在 50% 左右,但這份真實環境的研究證明,基準測試嚴重低估了 AI 在實戰中的能力,尤其是搭配精心設計的多代理框架時。

AI 在資安領域的角色正從輔助工具轉變為獨立行動者。當一個 AI 系統能夠自主發現、驗證和報告真實的安全漏洞,我們需要重新思考的不只是「AI 能不能做這件事」,而是「我們要在什麼條件下允許 AI 做這件事」。Claude Code 的拒絕和 ARTEMIS 的行動,代表了這個光譜的兩端。真正的挑戰是找到中間的平衡點:讓合法的防禦者能善用 AI 的能力,同時不讓這些能力輕易落入攻擊者手中。這個平衡,目前還沒有人找到。