AI 安全大轉向:從防堵模型回應,到監控 Agent 供應鏈

AI 安全正經歷根本性轉變。過去兩年的模型防火牆,面對能自主行動的 AI Agent 已經力不從心。Manifold Security 共同創辦人分享從 LLM Guard 到 Palo Alto 的實戰經驗,指出企業 AI 資安的第一步不是偵測,而是搞清楚員工到底裝了什麼外掛。

AI 安全大轉向:從防堵模型回應,到監控 Agent 供應鏈

本文整理自《Open Source Startup Podcast》2026 年 5 月播出的單集。


你的工程師今天用 Claude Code 寫了幾百行程式碼,過程中裝了三個從外部拉下來的技能檔。資安團隊知道嗎?大概率不知道。這個看似簡單的問題,正是 AI 安全目前面臨的最大盲點。

過去兩年,AI 資安的核心問題很單純:使用者輸入了什麼 prompt,模型回了什麼。安全團隊只要在這一來一回之間加上分類器和過濾器,大致就能控制風險。但現在 AI Agent 不只是回答問題,它們會裝外掛、呼叫工具、存取檔案、代替你修改程式碼。這個轉變,正在讓整套 AI 安全架構快速失效。

Manifold Security 的兩位共同創辦人 Neal Swaelens 與 Oleks Yaremchuk,是最早一批做 AI 安全的人。他們在 2023 年打造了 LLM Guard,一個至今仍是 Hugging Face 上下載量前 30 名的開源 LLM 防護工具,模型每月下載超過 30 萬次。後來加入 Protect AI 主導執行期安全,再隨著 Protect AI 被 Palo Alto Networks 收購而進入大廠體系。2025 年底,兩人離開 Palo Alto 創立 Manifold,在 2026 年 3 月完成了 800 萬美元的種子輪募資。原因很直接:他們在大公司內部親眼看到,Agent 的安全需求和過去兩年做的事情完全是兩回事。

從「防模型」到「防 Agent」:資安典範正在轉移

AI 安全 1.0 的世界觀相對簡單。使用者送出一段 prompt,模型產生一段回應,安全團隊在中間放置分類器,檢查有沒有有害內容、有沒有資料外洩。加上 RAG(檢索增強生成)之後,多了一層對外部資料的存取,但本質上還是線性的輸入與輸出關係。這套做法在聊天機器人時代勉強夠用,但碰到 Agent 就不行了。

Yaremchuk 回憶,早期大量投入 AI 安全的人其實不是資安背景出身,而是機器學習工程師和 AI 研究者。他們訓練各種分類模型來偵測惡意 prompt 和有害回應,但受限於成本和延遲,只能使用較小的模型。這些小模型沒有在程式碼上訓練過,碰到 Claude Code 這類以程式碼為主的互動場景,誤報率非常高。現在隨著更多資安背景的人進入這個領域,整個方法論正在從「訓練更好的分類器」轉向「借鏡過去供應鏈安全和偵測回應的實戰經驗」。

真正的問題在於 Agent 的運作方式和聊天機器人根本不同。Agent 會進行多步驟的工具呼叫,存取不同資源,執行一連串連鎖動作。Swaelens 指出,如果你只看 Agent 執行鏈中的某一個事件,然後判斷「這個工具呼叫看起來有問題,所以整個 Agent 有惡意」,產生的雜訊會多到無法使用。安全必須放在整個執行期的脈絡中才有意義,而不是逐一檢查孤立事件。你需要一個平台能理解整條執行鏈的上下文,才能判斷一連串看似無害的動作串在一起是否構成威脅。

這個認知落差讓很多企業陷入困境。他們幾個月前才採購了 AI 安全工具,供應商還信誓旦旦說「也能保護 Agent」。但實際上,那些為聊天機器人設計的防護牆,面對 Agent 的複雜執行鏈根本無能為力。Swaelens 在客戶對話中最常做的事,就是解釋為什麼 LLM 防火牆無法保護整個 Agent 的執行期安全。買方正試圖用舊的框架去理解新的問題,而他們手上的工具,是為一個已經過去的時代設計的。

端點是新戰場:你的工程師用了什麼,資安長不知道

Manifold 團隊原本預期,企業至少對自己的 AI 使用狀況有基本了解。他們把產品重心放在執行期偵測,打造了能追蹤 Agent 行為鏈的進階引擎。然後在一場又一場客戶對話中發現,真正的問題比他們想像的更基礎:多數企業根本不知道員工在用什麼 AI 工具。

這不只是「不知道用了哪些 Agent」的層次。更深的盲點在於,驅動這些 Agent 的外掛、技能檔和 MCP 伺服器,全部是從外部來源拉進來的,安全團隊對這些東西毫無能見度。Swaelens 說得直白:每次跟資安長開會,對方都答不出三個基本問題。你的組織裡有哪些 Agent 在運作?這些 Agent 用了哪些外部資產?這些資產安不安全?「如果你連自己有什麼都不知道,你也不可能知道你有的東西是好是壞。」

以 Claude Code 為例,多數公司會給工程師相當寬鬆的使用權限。工程師可以自由安裝各種技能檔和外掛來擴充 Agent 的能力,有些甚至只需要上傳一個 Markdown 檔案就搞定。但工程團隊以外的部門,像行銷、設計、產品,通常連存取 AI 工具的權限都沒有。Yaremchuk 認為這反而是機會:如果安全團隊能先看清楚全貌,就能幫助更多部門安全地採用 AI 工具,而不是一刀切地禁止。Manifold 正在幫這些企業做的事,與其說是「阻擋威脅」,不如說是「成為 AI 採用的推動者」。

Agent 使用量的規模也超出預期。過去客戶端聊天機器人的互動量,跟工程團隊每週產生的 Agent 事件相比,不在同一個量級。Swaelens 提到,他們自己團隊在使用 AI 工具時產生的事件量,就已經遠超過去任何客戶的聊天機器人。這意味著安全方案必須能處理完全不同等級的資料吞吐量,過去為低量聊天場景設計的架構,在這裡直接撐不住。

掃描器說 40% 有問題,但真正危險的不到 1%

2026 年初,隨著 Agent 外掛生態快速膨脹,Cisco 等大廠紛紛推出自己的掃描工具。但 Manifold 團隊對比了這些掃描器的結果後發現一個驚人事實:在大約三萬個技能檔中,各家掃描器的判定只有 0.32% 是一致的。某些掃描器宣稱生態系中 40% 以上的外掛有安全疑慮,但 Manifold 的分析顯示,真正有問題的比例不到 1%。

問題出在方法論。多數掃描器的做法是把技能檔的內容丟給一個 LLM,讓它判斷有沒有惡意。這種做法能產生聳動的新聞標題,但完全不適合拿來做實際的安全治理。當你的掃描器把四成東西都標紅,安全團隊不會因此更安全,只會被警報淹沒到什麼都管不了,最後乾脆把工具拆掉。

Manifold 的開源專案 Manifest 採取了不同路徑。他們借鏡傳統軟體供應鏈安全的做法,不只看檔案內容本身,還分析作者的信任評分、更新歷史、程式碼來源等指標,組成一套完整的血統追蹤機制。針對每個技能檔,Manifest 會建立兩張圖:一張是執行圖,標記這個技能可能執行哪些動作,例如寫入檔案、呼叫外部 API、執行系統指令;另一張是生態圖,顯示作者還發布了什麼、有沒有功能相似的替代品、跨註冊中心是否有重複上架的可疑行為。截至目前,Manifest 已經索引了超過 20.6 萬個 AI 資產,涵蓋來自 31,000 多個發布者的技能檔、外掛和 MCP 伺服器。

Yaremchuk 提到一個重要的設計選擇:當 Manifest 標記某個技能有風險時,會同時推薦一個功能相似但沒有被標記的替代品。這看似小事,卻解決了安全團隊的一大痛點。過去的做法是告訴開發者「這個不能用」,但開發者還是需要完成工作。如果你能同時說「用這個替代品就好」,落地的阻力就小得多。

開源資安的兩難:門打開了,競爭者也進來了

從 LLM Guard 到 Manifest,Swaelens 和 Yaremchuk 做了兩個開源資安專案。他們的經驗可以歸結成一句話:在全新的資安領域做開源,風險極高。

LLM Guard 推出後快速累積了數百萬次下載,替他們打開了跟資安長對話的大門,也讓他們精準掌握了企業客戶在意什麼、規模多大、願意為什麼付費。但在一個所有人都還在摸索的新領域裡,你公開了最前沿的功能,競爭對手就能直接在上面建構自己的商業產品。Swaelens 坦言,當初最大的錯誤是沒有在早期想清楚授權模式和「開放核心」的邊界。什麼功能該開源、什麼該留給商業版?在成熟市場裡這個問題比較好回答,但在什麼都還在變的新領域,你根本不知道哪些功能未來會變成關鍵差異點。

有了前車之鑑,Manifest 的開源策略更為謹慎。Yaremchuk 特別強調「不要急著推出開源專案」。最近幾個月,市場上冒出大量跟 AI 安全相關的開源專案,很多是用 AI 工具快速產出的,範圍很廣但品質粗糙,文件不清楚、安裝流程複雜,根本搞不懂在解決什麼問題。反而是一些晚幾週推出、但範圍明確且執行品質高的專案,最終獲得了更多人採用。開源專案的成功,取決於你是否真的理解了要解決的問題,而不是你多快把程式碼丟到 GitHub 上。

另一個重要的教訓是開源的「開門」效應。Yaremchuk 回憶,LLM Guard 最大的價值不是直接帶來營收,而是讓資安長主動找上門。「他們看到你有開源專案,就願意跟你對話。」這種信任建立的速度,是純商業產品很難達到的。但你必須很快在開源之上搭建企業級功能,否則開了門,客戶走進來看了一圈,發現沒有他們需要的東西,就轉頭走了。

我的觀察

這集 Podcast 最讓我有感的,不是什麼偵測引擎或技術架構,而是一個非常基本的觀察:AI 資安的第一步不是偵測威脅,而是盤點資產。

聽起來很無聊,但仔細想就會發現這個洞察有多精準。你的組織裡有多少人在用 Claude Code、Cursor、GitHub Copilot?他們裝了哪些外掛和技能檔?這些外掛的作者是誰、程式碼從哪裡來?如果你是資安負責人,而這些問題一個都答不出來,那再先進的執行期偵測引擎也幫不了你,因為你連要保護什麼都不知道。Manifold 團隊自己也走過這個彎路:他們一開始蓋了很厲害的偵測引擎,結果客戶第一個問題是「你能先告訴我,我們公司到底有哪些 Agent 在跑嗎?」

另一個值得注意的趨勢是買方心態的轉變。兩年前,企業願意買一個有願景但還不成熟的產品,因為市場太新,大家都在探索。但 Yaremchuk 觀察到,現在的企業買方會反過來問:「我們自己用 Claude Code 做一個,會不會更快?」AI 工具加速了產品開發,同時也拉高了買方的期待門檻。你不能再靠路線圖說服客戶,你必須拿出能跑、能整合、能立刻展示價值的東西。這個壓力對所有 AI 資安新創都是一樣的。

對臺灣企業來說,這些觀察同樣適用。不少公司已經在內部導入 AI 寫程式助手,但資安團隊對這些工具的能見度往往是零。趁現在 Agent 外掛生態還在早期,先建立一套盤點和治理機制,會比等到出事再補破網務實得多。Manifest 這類免費工具的存在,至少證明了一件事:你不需要等到買了昂貴的企業方案,就能開始了解自己的 AI 供應鏈長什麼樣子。