AI 滲透測試首次實戰:史丹佛團隊讓 AI 和人類在真實網路上正面對決

史丹佛與卡內基美隆研究團隊在擁有八千台主機的真實大學網路上,讓 AI 代理與十位人類資安專家正面對決。最強的 AI 框架 ARTEMIS 拿下總排名第二,年化成本不到人類專家的同等水準,滲透測試產業的成本結構正面臨改寫。

AI 滲透測試首次實戰:史丹佛團隊讓 AI 和人類在真實網路上正面對決

本文分析來源為 arXiv 論文 2512.09882,由史丹佛大學、卡內基美隆大學與 Gray Swan AI 聯合發表。

一個 AI 系統花了不到 950 美元的運算成本,在 16 小時內找出了 9 個真實的資安漏洞,總排名僅次於表現最好的人類滲透測試專家。換算成年薪,這套系統的高階版本約 12.2 萬美元,低階版本只需 3.7 萬美元。美國滲透測試專家的平均年薪是 12.5 萬美元。這不是模擬靶場上的紙上談兵,而是在一個擁有約 8,000 台真實主機的大學網路上進行的正面對決。

八千台主機上的人機大戰

史丹佛大學和卡內基美隆大學的 13 位研究者,設計了一場前所未有的實驗。他們拿到了一所大型研究型大學的電腦科學系網路授權,這個網路有大約 8,000 台主機,分布在 12 個子網段中,其中 7 個可以從公開網路存取,5 個需要透過 VPN 連入。裡面有 Unix 伺服器、Windows 機器、IoT 裝置、嵌入式系統,還有 Kerberos 認證、入侵偵測系統和定期的漏洞掃描。換句話說,這是一個有真實防禦措施的生產環境,不是那種故意放了一堆漏洞等你來打的 CTF 靶場。

人類這邊,研究團隊招募了 10 位專業的滲透測試人員,每人獲得 2,000 美元報酬,必須投入至少 10 小時的工作時間,有 4 天的 VPN 存取權限。AI 這邊,他們測試了 6 個現成的 AI 代理框架,加上自己研發的 ARTEMIS 框架。所有參賽者都在 Kali Linux 虛擬機上操作,規則很簡單:除了破壞性行為(刪除資料、發動 DDoS)之外,什麼手段都可以用。最終按照 10 小時的計分窗口統一評比,同時考量漏洞的嚴重程度和攻擊的技術複雜度。

AI 的成績單比想像中亮眼

最終結果有點出乎意料。ARTEMIS 的 A2 版本(使用 Claude Sonnet 4、OpenAI o3、Claude Opus 4 和 Gemini 2.5 Pro 的多模型集成配置)拿下了總排名第二,只輸給表現最好的人類選手 P1。P1 找到了 13 個漏洞,全部有效,總分 111.4 分。ARTEMIS A2 找到的漏洞數量較少,但 82% 的有效率和較高的嚴重度評分讓它拿到 95.2 分,超過了其他 8 位人類專家。

比較便宜的 A1 版本(純 GPT-5 配置)排在第 7 名,分數 53.2。它其實找到了更多漏洞(11 個),但有效率只有 55%,太多誤報拖累了分數。其他現成的 AI 工具表現更差:OpenAI 的 Codex 找到 7 個有效漏洞,排在人類的後段班。CyAgent 的兩個版本分別找到 4 和 5 個有效漏洞。而 Claude Code、MAPTA 和 Incalmo 三個框架直接交了白卷,得分為零。Claude Code 和 MAPTA 是因為拒絕執行滲透測試任務,Incalmo 則是在偵察階段就卡住了。

AI 的優勢:不累、不分心、命令列比你快

AI 代理在幾個方面展現了人類難以匹敵的優勢。首先是平行處理能力。ARTEMIS 最多同時部署了 8 個子代理進行偵察和測試,平均每次迭代維持 2.82 個併發子代理。人類一次只能專注在一個目標上,AI 可以同時掃描多個子網段。其次是持久性。ARTEMIS 可以持續運行超過 16 小時不間斷,而人類會疲勞、會分心。研究者特別觀察到,有一位人類選手在早期發現了 LDAP 匿名綁定漏洞的線索,但後來轉去追蹤其他目標就再也沒回來處理。ARTEMIS 不會犯這種錯。

更有趣的是命令列介面上的表現差異。測試環境中有一些舊款的 Dell iDRAC 伺服器,使用了過時的 HTTPS 加密套件,現代瀏覽器連都連不上去。人類測試者通常在瀏覽器報錯後就放棄了,但 ARTEMIS 用 curl -k 跳過 SSL 憑證驗證,直接在命令列中完成了攻擊。這種不依賴圖形介面的能力,反而成了 AI 在特定場景下的獨特優勢。

但 AI 也有看不見的地方

AI 的弱點同樣明顯。最突出的是圖形介面互動能力的缺失。測試環境中有一台 TinyPilot KVM 遠端控制裝置,存在未經認證的遠端程式碼執行(RCE)漏洞,80% 的人類測試者成功利用了這個漏洞,因為只要用瀏覽器打開那個 Web 控制台就能操作。但 ARTEMIS 在正常測試中完全無法觸及這個漏洞,只有在研究者額外提供中等程度提示的情況下才找到它。這揭示了一個根本性的問題:目前的 AI 代理框架幾乎都是以命令列為基礎設計的,面對需要瀏覽器互動的 Web 應用程式,基本上束手無策。

誤報率也是一個問題。ARTEMIS 會把 HTTP 200 回應(即使是登入失敗後的重導向)誤判為認證成功,這種對 Web 行為的誤讀導致了不少無效的漏洞報告。相比之下,人類測試者的有效率普遍在 75% 到 100% 之間,最頂尖的 P1 達到了 100% 的有效率,每個報告的漏洞都是真的。

便宜未必好用,但貴的真的能打

這份研究最引人注目的數字,是那張成本對照表。ARTEMIS A1(純 GPT-5 配置)16 小時的總運算成本是 291.47 美元,換算成時薪只有 18.21 美元,年化成本約 37,876 美元。A2 版本(多模型集成)貴了不少,16 小時花了 944.07 美元,時薪 59 美元,年化 122,720 美元。美國滲透測試專家的平均年薪是 125,034 美元。

但便宜和好用是兩回事。年薪不到四萬的 A1 只排在第 7 名,有效率只有 55%。年薪 12.2 萬的 A2 排第 2 名,有效率 82%。所以目前的情況是,要達到接近頂尖人類的水準,AI 的成本其實和人類差不多。真正的成本優勢在於 AI 不需要休息、不需要福利、可以 24/7 運行。而且隨著模型成本持續下降,這個等式會越來越有利於 AI。

資安產業站在轉折點上

這份研究的意義不只是「AI 能不能做滲透測試」這個問題的答案。它揭示的是一個正在成形的產業轉變:當高品質的自動化滲透測試工具成本降到夠低,持續性的安全評估將不再是大企業的專利。一家中小企業可能負擔不起每年一次 12.5 萬美元的人工滲透測試,但如果同樣的工作可以用不到四萬美元的 AI 持續進行呢?

不過,研究團隊也很誠實地指出了局限性。這次測試只有 10 小時的計分窗口,而真實的滲透測試通常持續一到兩週。人類在更長的時間尺度上往往表現更好,因為他們能夠建立深層的環境理解、發展出創造性的攻擊鏈。此外,這次測試的防禦方是「知情但不主動攔截」的狀態,如果有主動的防禦團隊在回擊,AI 代理的表現可能會大打折扣。

這份研究最重要的結論或許是:AI 不是要取代人類滲透測試專家,而是要改變這個職業的工作方式。就像 AI 在程式開發中成為了工程師的副駕駛,在資安領域,AI 更適合扮演的角色是處理大量重複的偵察和掃描工作,讓人類專家專注在需要創造力和直覺的複雜攻擊路徑上。時薪 18 美元的 AI 不會讓資安專家失業,但它會讓那些不擅長利用 AI 的資安專家逐漸落後。