三個 AI 得零分、一個殺進前二:多代理架構如何碾壓單兵作戰

六個 AI 代理被派去做真實的滲透測試,三個得零分,但採用多代理架構的 ARTEMIS 殺進前二名。差別不在模型能力,而在架構設計。Supervisor 統籌、Sub-agent 群體作戰、Triage 自動驗證,這才是 AI 在複雜真實任務中勝出的關鍵。

三個 AI 得零分、一個殺進前二:多代理架構如何碾壓單兵作戰

本文分析來源為 arXiv 論文 2512.09882,由史丹佛大學、卡內基美隆大學與 Gray Swan AI 聯合發表。

六個 AI 代理被派去執行同一個任務:滲透測試一個擁有約 8,000 台主機的真實大學網路。結果三個得了零分,兩個勉強過關,只有一個殺進了總排名前二。那個前二名不是靠更強的語言模型(其他框架也用了 GPT-5),而是靠一個精心設計的多代理架構。這個結果對所有在開發 AI 代理的人都有重要啟示:在真實世界的複雜任務中,架構設計比模型選擇更關鍵。

現成工具為什麼失敗

先看失敗的案例。Claude Code 和 MAPTA 得零分是因為安全機制拒絕執行攻擊性任務,這是設計決策,不是能力問題。但 Incalmo 同樣得了零分,原因卻完全不同。Incalmo 使用的是 GPT-5,它接受了任務,但在偵察階段就卡住了。面對一個有 12 個子網段、7 個公開入口的真實網路,它無法有效規劃偵察策略,最終停滯不前。這是能力的問題,更準確地說,是單一代理架構在面對大規模複雜環境時的結構性缺陷。

表現稍好的 Codex(同樣使用 GPT-5)找到了 7 個有效漏洞,但它的操作時間不到 20 分鐘就結束了。CyAgent 的兩個版本分別撐了約兩個小時,找到 4 到 5 個有效漏洞。這些工具的共通問題是:它們被設計為單一代理架構,一個 LLM 實例要同時負責偵察、規劃、攻擊和驗證所有環節。面對一個小型靶場這或許夠用,面對 8,000 台主機和 12 個子網段的真實網路,單兵作戰就力不從心了。

從時間軸來看,差距更明顯。研究團隊追蹤了所有參與者的漏洞提交時間線。人類測試者在 10 小時的計分窗口內持續穩定地提交發現,Codex 不到 20 分鐘就停了,CyAgent 大約兩小時後沉寂,只有 ARTEMIS 維持了類似人類的持續產出,在整個 16 小時的運行期間不斷提交新的發現。

ARTEMIS 的三層架構

ARTEMIS 的成功核心在於它的三層多代理架構,每一層解決一個特定的問題。

第一層是 Supervisor(監督者),負責全局統籌。Supervisor 維護一個動態的任務清單,決定接下來應該探索哪個子網段、測試哪種攻擊向量。它不會親自動手做偵察或攻擊,而是把具體任務分派給子代理。研究團隊在 A2 版本中更進一步,使用了多個不同 LLM 作為 Supervisor 的集成配置,包括 Claude Sonnet 4、OpenAI o3、Claude Opus 4 和 Gemini 2.5 Pro,讓不同模型的判斷互相補充,避免單一模型的盲點。

第二層是 Sub-agent Swarm(子代理群),這是實際執行偵察和攻擊的「工作蜂」。每個子代理是一個獨立的 LLM 實例,接收由 Supervisor 動態產生的任務專屬 prompt,然後自主完成分配的工作。關鍵在於「動態產生」這四個字:Supervisor 不是用固定的 prompt 模板,而是根據當前的偵察結果和已知漏洞即時生成新的任務指令。實測中 ARTEMIS 最多同時運行 8 個子代理,平均維持 2.82 個併發實例。每個子代理有自己的工具集,包括生成新的子代理、終止實例、傳遞後續指令、讀寫筆記、網路搜尋和漏洞提交等功能。

第三層是 Triage Module(分類模組),負責在漏洞提交前進行自動驗證。它會嘗試重現子代理報告的漏洞,評估嚴重程度,過濾掉明顯的誤報。這層設計直接影響了最終的有效率:A2 版本的 82% 有效率雖然低於多數人類測試者(人類普遍在 83% 到 100%),但遠高於 A1 版本的 55%。兩個版本的差異不在子代理,而在 Supervisor 和 Triage 的配置強度。

為什麼多代理能贏

這份研究的資料揭示了多代理架構在幾個維度上的結構性優勢。

第一是平行覆蓋。單一代理面對 12 個子網段只能逐一探索,ARTEMIS 可以同時在多個子網段派出子代理進行偵察。這不只是速度的差異,更是覆蓋面的差異。在 10 小時的限制內,覆蓋更多目標意味著找到更多漏洞的機會。Codex 用 GPT-5 只撐了 20 分鐘,ARTEMIS 同樣用 GPT-5 卻跑了 16 小時。差別不在模型,在架構。

第二是上下文管理。單一代理的上下文窗口是有限的。當你在一個有 8,000 台主機的網路中做滲透測試,光是偵察結果就可能塞滿整個上下文。ARTEMIS 用了兩個機制來解決這個問題:智慧摘要(把冗長的掃描輸出壓縮成關鍵資訊)和遞迴式 TODO 系統(以會話為基礎的架構讓代理能在 16 小時以上的長時間運行中保持工作狀態)。單一代理通常在幾分鐘到幾小時後就開始「遺忘」先前的發現,ARTEMIS 透過筆記系統和任務清單維持了長期記憶。

第三是專業化分工。在單一代理框架中,同一個 LLM 實例要切換於偵察者、分析者、攻擊者和報告者多個角色之間。ARTEMIS 讓每個子代理專注於一個特定的任務,Supervisor 負責全局視野,Triage 負責品質控管。這種分工模式更接近人類滲透測試團隊的實際運作方式:有人負責掃描,有人負責嘗試攻擊,有人負責驗證和記錄。

對 Agent 開發者的三個啟示

這份研究對正在開發 AI 代理系統的工程師和產品經理提供了幾個具體的教訓。

第一個教訓:單一代理在複雜真實任務中的失敗不是模型的問題,是架構的問題。Incalmo 和 Codex 都使用了 GPT-5,但 Incalmo 得了零分,Codex 在 20 分鐘內就結束了。ARTEMIS 的 A1 版本同樣使用 GPT-5,卻能持續運行 16 小時並找到多個有效漏洞。差異完全在於多代理框架提供的任務分解、平行執行和狀態管理能力。如果你的 AI 代理在簡單任務上表現不錯但在複雜任務上失敗,問題很可能不在你的 prompt,而是在你的架構。

第二個教訓跟品質控管有關。ARTEMIS A1 和 A2 的對比很有說明力。兩者找到的漏洞數量差不多(A1 有 11 個提交,A2 有 9 個有效漏洞),但 A1 的有效率只有 55%,A2 達到了 82%。A2 更強的 Triage 模組和更好的 Supervisor 配置是關鍵差異。這意味著在多代理系統中,「驗證層」的投資回報可能比「發現層」更高。與其讓更多子代理去找更多東西,不如把資源投入在減少誤報上。

第三個教訓是動態 prompt 生成的價值。ARTEMIS 不使用固定的 prompt 模板,而是讓 Supervisor 根據即時的偵察結果動態產生每個子代理的任務指令。這讓系統能夠根據新發現即時調整策略,而不是照著預設的劇本走。在真實世界的複雜環境中,每一步的發現都可能改變下一步的最佳行動。這種適應性是單一固定 prompt 無法提供的。

多代理是正確方向,但還很早期

ARTEMIS 的成功很亮眼,但保持清醒很重要。它排第二名,不是第一名。最頂尖的人類測試者 P1 找到了 13 個漏洞,全部有效(100% 有效率),總分 111.4 對上 ARTEMIS A2 的 95.2。人類在需要創造力、直覺和複雜推理鏈的攻擊路徑上仍然有明顯優勢。此外,這次測試只有 10 小時的計分窗口,真實的滲透測試通常持續一到兩週,人類在更長的時間尺度上表現可能更好。

現有的 AI 基準測試也有很有趣的對照。在 Cybench 基準上,Claude 4.5 Sonnet 得到 55%,ARTEMIS 得到 48.6%,GPT-5 得到 45.9%。但在真實網路中,ARTEMIS 卻擊敗了 8 位人類專家。基準分數和實戰表現之間的差距,恰好說明了架構設計的重要性。同一個底層模型(GPT-5),在 Cybench 上只有 45.9% 的成功率,在 Incalmo 框架中得零分,在 Codex 框架中只撐了 20 分鐘,但在 ARTEMIS 的多代理架構中,它成為了一個能持續 16 小時、找到真實漏洞的實戰系統。

如果你想讓 AI 在複雜的真實世界任務中有用,投資在多代理架構上的回報很可能遠高於等待下一代更強的語言模型。ARTEMIS 證明了這一點。接下來的問題是,這個架構模式能不能推廣到滲透測試以外的其他複雜領域。從這份研究的結果來看,答案很可能是肯定的。