AI 安全與治理

AI 安全大轉向：從防堵模型回應，到監控 Agent 供應鏈

AI 安全正經歷根本性轉變。過去兩年的模型防火牆，面對能自主行動的 AI Agent 已經力不從心。Manifold Security 共同創辦人分享從 LLM Guard 到 Palo Alto 的實戰經驗，指出企業 AI 資安的第一步不是偵測，而是搞清楚員工到底裝了什麼外掛。

2026 年 5 月 29 日 · 來源： Open Source Startup Podcast

本文整理自《Open Source Startup Podcast》2026 年 5 月播出的單集。

你的工程師今天用 Claude Code 寫了幾百行程式碼，過程中裝了三個從外部拉下來的技能檔。資安團隊知道嗎？大概率不知道。這個看似簡單的問題，正是 AI 安全目前面臨的最大盲點。

過去兩年，AI 資安的核心問題很單純：使用者輸入了什麼 prompt，模型回了什麼。安全團隊只要在這一來一回之間加上分類器和過濾器，大致就能控制風險。但現在 AI Agent 不只是回答問題，它們會裝外掛、呼叫工具、存取檔案、代替你修改程式碼。這個轉變，正在讓整套 AI 安全架構快速失效。

Manifold Security 的兩位共同創辦人 Neal Swaelens 與 Oleks Yaremchuk，是最早一批做 AI 安全的人。他們在 2023 年打造了 LLM Guard，一個至今仍是 Hugging Face 上下載量前 30 名的開源 LLM 防護工具，模型每月下載超過 30 萬次。後來加入 Protect AI 主導執行期安全，再隨著 Protect AI 被 Palo Alto Networks 收購而進入大廠體系。2025 年底，兩人離開 Palo Alto 創立 Manifold，在 2026 年 3 月完成了 800 萬美元的種子輪募資。原因很直接：他們在大公司內部親眼看到，Agent 的安全需求和過去兩年做的事情完全是兩回事。

從「防模型」到「防 Agent」：資安典範正在轉移

AI 安全 1.0 的世界觀相對簡單。使用者送出一段 prompt，模型產生一段回應，安全團隊在中間放置分類器，檢查有沒有有害內容、有沒有資料外洩。加上 RAG（檢索增強生成）之後，多了一層對外部資料的存取，但本質上還是線性的輸入與輸出關係。這套做法在聊天機器人時代勉強夠用，但碰到 Agent 就不行了。

Yaremchuk 回憶，早期大量投入 AI 安全的人其實不是資安背景出身，而是機器學習工程師和 AI 研究者。他們訓練各種分類模型來偵測惡意 prompt 和有害回應，但受限於成本和延遲，只能使用較小的模型。這些小模型沒有在程式碼上訓練過，碰到 Claude Code 這類以程式碼為主的互動場景，誤報率非常高。現在隨著更多資安背景的人進入這個領域，整個方法論正在從「訓練更好的分類器」轉向「借鏡過去供應鏈安全和偵測回應的實戰經驗」。

真正的問題在於 Agent 的運作方式和聊天機器人根本不同。Agent 會進行多步驟的工具呼叫，存取不同資源，執行一連串連鎖動作。Swaelens 指出，如果你只看 Agent 執行鏈中的某一個事件，然後判斷「這個工具呼叫看起來有問題，所以整個 Agent 有惡意」，產生的雜訊會多到無法使用。安全必須放在整個執行期的脈絡中才有意義，而不是逐一檢查孤立事件。你需要一個平台能理解整條執行鏈的上下文，才能判斷一連串看似無害的動作串在一起是否構成威脅。

這個認知落差讓很多企業陷入困境。他們幾個月前才採購了 AI 安全工具，供應商還信誓旦旦說「也能保護 Agent」。但實際上，那些為聊天機器人設計的防護牆，面對 Agent 的複雜執行鏈根本無能為力。Swaelens 在客戶對話中最常做的事，就是解釋為什麼 LLM 防火牆無法保護整個 Agent 的執行期安全。買方正試圖用舊的框架去理解新的問題，而他們手上的工具，是為一個已經過去的時代設計的。

端點是新戰場：你的工程師用了什麼，資安長不知道

Manifold 團隊原本預期，企業至少對自己的 AI 使用狀況有基本了解。他們把產品重心放在執行期偵測，打造了能追蹤 Agent 行為鏈的進階引擎。然後在一場又一場客戶對話中發現，真正的問題比他們想像的更基礎：多數企業根本不知道員工在用什麼 AI 工具。

這不只是「不知道用了哪些 Agent」的層次。更深的盲點在於，驅動這些 Agent 的外掛、技能檔和 MCP 伺服器，全部是從外部來源拉進來的，安全團隊對這些東西毫無能見度。Swaelens 說得直白：每次跟資安長開會，對方都答不出三個基本問題。你的組織裡有哪些 Agent 在運作？這些 Agent 用了哪些外部資產？這些資產安不安全？「如果你連自己有什麼都不知道，你也不可能知道你有的東西是好是壞。」

以 Claude Code 為例，多數公司會給工程師相當寬鬆的使用權限。工程師可以自由安裝各種技能檔和外掛來擴充 Agent 的能力，有些甚至只需要上傳一個 Markdown 檔案就搞定。但工程團隊以外的部門，像行銷、設計、產品，通常連存取 AI 工具的權限都沒有。Yaremchuk 認為這反而是機會：如果安全團隊能先看清楚全貌，就能幫助更多部門安全地採用 AI 工具，而不是一刀切地禁止。Manifold 正在幫這些企業做的事，與其說是「阻擋威脅」，不如說是「成為 AI 採用的推動者」。

Agent 使用量的規模也超出預期。過去客戶端聊天機器人的互動量，跟工程團隊每週產生的 Agent 事件相比，不在同一個量級。Swaelens 提到，他們自己團隊在使用 AI 工具時產生的事件量，就已經遠超過去任何客戶的聊天機器人。這意味著安全方案必須能處理完全不同等級的資料吞吐量，過去為低量聊天場景設計的架構，在這裡直接撐不住。

掃描器說 40% 有問題，但真正危險的不到 1%

2026 年初，隨著 Agent 外掛生態快速膨脹，Cisco 等大廠紛紛推出自己的掃描工具。但 Manifold 團隊對比了這些掃描器的結果後發現一個驚人事實：在大約三萬個技能檔中，各家掃描器的判定只有 0.32% 是一致的。某些掃描器宣稱生態系中 40% 以上的外掛有安全疑慮，但 Manifold 的分析顯示，真正有問題的比例不到 1%。

問題出在方法論。多數掃描器的做法是把技能檔的內容丟給一個 LLM，讓它判斷有沒有惡意。這種做法能產生聳動的新聞標題，但完全不適合拿來做實際的安全治理。當你的掃描器把四成東西都標紅，安全團隊不會因此更安全，只會被警報淹沒到什麼都管不了，最後乾脆把工具拆掉。

Manifold 的開源專案 Manifest 採取了不同路徑。他們借鏡傳統軟體供應鏈安全的做法，不只看檔案內容本身，還分析作者的信任評分、更新歷史、程式碼來源等指標，組成一套完整的血統追蹤機制。針對每個技能檔，Manifest 會建立兩張圖：一張是執行圖，標記這個技能可能執行哪些動作，例如寫入檔案、呼叫外部 API、執行系統指令；另一張是生態圖，顯示作者還發布了什麼、有沒有功能相似的替代品、跨註冊中心是否有重複上架的可疑行為。截至目前，Manifest 已經索引了超過 20.6 萬個 AI 資產，涵蓋來自 31,000 多個發布者的技能檔、外掛和 MCP 伺服器。

Yaremchuk 提到一個重要的設計選擇：當 Manifest 標記某個技能有風險時，會同時推薦一個功能相似但沒有被標記的替代品。這看似小事，卻解決了安全團隊的一大痛點。過去的做法是告訴開發者「這個不能用」，但開發者還是需要完成工作。如果你能同時說「用這個替代品就好」，落地的阻力就小得多。

開源資安的兩難：門打開了，競爭者也進來了

從 LLM Guard 到 Manifest，Swaelens 和 Yaremchuk 做了兩個開源資安專案。他們的經驗可以歸結成一句話：在全新的資安領域做開源，風險極高。

LLM Guard 推出後快速累積了數百萬次下載，替他們打開了跟資安長對話的大門，也讓他們精準掌握了企業客戶在意什麼、規模多大、願意為什麼付費。但在一個所有人都還在摸索的新領域裡，你公開了最前沿的功能，競爭對手就能直接在上面建構自己的商業產品。Swaelens 坦言，當初最大的錯誤是沒有在早期想清楚授權模式和「開放核心」的邊界。什麼功能該開源、什麼該留給商業版？在成熟市場裡這個問題比較好回答，但在什麼都還在變的新領域，你根本不知道哪些功能未來會變成關鍵差異點。

有了前車之鑑，Manifest 的開源策略更為謹慎。Yaremchuk 特別強調「不要急著推出開源專案」。最近幾個月，市場上冒出大量跟 AI 安全相關的開源專案，很多是用 AI 工具快速產出的，範圍很廣但品質粗糙，文件不清楚、安裝流程複雜，根本搞不懂在解決什麼問題。反而是一些晚幾週推出、但範圍明確且執行品質高的專案，最終獲得了更多人採用。開源專案的成功，取決於你是否真的理解了要解決的問題，而不是你多快把程式碼丟到 GitHub 上。

另一個重要的教訓是開源的「開門」效應。Yaremchuk 回憶，LLM Guard 最大的價值不是直接帶來營收，而是讓資安長主動找上門。「他們看到你有開源專案，就願意跟你對話。」這種信任建立的速度，是純商業產品很難達到的。但你必須很快在開源之上搭建企業級功能，否則開了門，客戶走進來看了一圈，發現沒有他們需要的東西，就轉頭走了。

我的觀察

這集 Podcast 最讓我有感的，不是什麼偵測引擎或技術架構，而是一個非常基本的觀察：AI 資安的第一步不是偵測威脅，而是盤點資產。

聽起來很無聊，但仔細想就會發現這個洞察有多精準。你的組織裡有多少人在用 Claude Code、Cursor、GitHub Copilot？他們裝了哪些外掛和技能檔？這些外掛的作者是誰、程式碼從哪裡來？如果你是資安負責人，而這些問題一個都答不出來，那再先進的執行期偵測引擎也幫不了你，因為你連要保護什麼都不知道。Manifold 團隊自己也走過這個彎路：他們一開始蓋了很厲害的偵測引擎，結果客戶第一個問題是「你能先告訴我，我們公司到底有哪些 Agent 在跑嗎？」

另一個值得注意的趨勢是買方心態的轉變。兩年前，企業願意買一個有願景但還不成熟的產品，因為市場太新，大家都在探索。但 Yaremchuk 觀察到，現在的企業買方會反過來問：「我們自己用 Claude Code 做一個，會不會更快？」AI 工具加速了產品開發，同時也拉高了買方的期待門檻。你不能再靠路線圖說服客戶，你必須拿出能跑、能整合、能立刻展示價值的東西。這個壓力對所有 AI 資安新創都是一樣的。

對臺灣企業來說，這些觀察同樣適用。不少公司已經在內部導入 AI 寫程式助手，但資安團隊對這些工具的能見度往往是零。趁現在 Agent 外掛生態還在早期，先建立一套盤點和治理機制，會比等到出事再補破網務實得多。Manifest 這類免費工具的存在，至少證明了一件事：你不需要等到買了昂貴的企業方案，就能開始了解自己的 AI 供應鏈長什麼樣子。