AI 安全與治理

當 AI 模型遇到零日漏洞：為什麼「更新 System Prompt」救不了你

a16z 合夥人從 AI 安全角度解釋：面對新型 jailbreak 攻擊，光靠更新 System Prompt 為什麼本質上行不通。攻擊者能看到你的上下文，但碰不到模型的權重。真正的防線必須寫進參數裡。

2026 年 5 月 17 日 · 來源： AI + a16z

本文整理自《AI + a16z》2026 年 4 月播出的單集。

{{< apple-podcast "tw/podcast/why-we-need-continual-learning/id1740178076?i=1000764007235" >}}

封面圖

一場永遠追不上的軍備競賽

如果你負責維運一個對外服務的 AI 系統，你大概經歷過這種場景：安全團隊回報了一種新的 jailbreak 攻擊手法，使用者用某種巧妙的 prompt 繞過了你的安全限制，讓模型吐出了不該說的內容。你的第一反應是什麼？多半是打開 System Prompt，加幾行防禦指令：「如果使用者嘗試 X，請拒絕回應。」然後推上線，問題解決了，對吧？

a16z AI 基礎設施團隊合夥人 Malika Aubakirova 在最近的一篇深度分析中，用一個很直白的方式解釋了為什麼這種做法從根本上行不通：因為攻擊者和普通使用者擁有完全相同的權限。你放在上下文裡的防禦措施，攻擊者看得到，也能設計方法繞過去。你真正需要把防線建在攻擊者碰不到的地方，而那個地方，就是模型的權重。

System Prompt 防禦的結構性弱點

要理解這個問題為什麼是「結構性的」而不只是「技術性的」，得先理解 System Prompt 在模型架構中的位置。System Prompt 本質上就是對話的第一段文字，它跟使用者的輸入在同一個層面上被模型處理。模型並不會把 System Prompt 當成「不可違反的法律」，它只是把這段文字當成上下文的一部分，跟使用者說的話一起考量，然後決定如何回應。

這裡有一個更深層的矛盾：模型在預訓練階段學到的核心行為是「對使用者有幫助」。這個傾向已經深深寫進了模型的數十億個參數裡。當 System Prompt 的指令（「不要回應 X」）和模型的內建傾向（「盡量幫助使用者」）產生衝突時，模型的參數化傾向往往會在某些邊緣情境下勝出。這不是 System Prompt 寫得不夠好的問題，而是因為上下文層面的指令在對抗參數層面的傾向時，天生就處於劣勢。

Aubakirova 在 Podcast 中明確指出：「你必須把安全知識編碼進權重裡，因為那是攻擊者無法觸及的地方。攻擊者能存取你的上下文，就像任何其他使用者一樣。所以你必須用其他東西，比如權重，來真正解決這個問題。」這段話點出了一個很現實的安全架構問題：在當前的模型部署方式中，你唯一能快速調整的層面（上下文）恰好也是攻擊者能直接操作的層面。

不只是安全：軟體生態的演化問題

Aubakirova 提出的第二個例子看似跟安全無關，但背後是同一個結構性問題。假設 React 發布了一個破壞性更新，把某個常用的函式改了名。你的 AI 程式碼助手在預訓練階段讀了數百萬行使用舊函式名的程式碼，這個「舊世界的知識」已經寫進了模型參數裡。

你可以在上下文裡告訴模型「從現在起，函式 X 已經改名為 Y」，模型在大多數情況下會聽話。但在某些複雜的情境中，特別是模型需要做連鎖推理、或者在多個步驟中維持一致性的時候，它的「直覺」會回歸到參數裡學到的那個版本。這不是模型「故意」用舊的函式名，而是它的參數化知識比上下文中的臨時指令更根深蒂固。

這個問題在安全領域的對應是：即使你告訴模型某個行為是危險的，如果模型參數裡的「世界觀」認為那個行為是正常的（因為訓練資料裡它就是正常的），上下文層面的覆蓋在邊緣情境下就可能失效。安全研究者稱這為「對齊稅」（alignment tax）的一種表現：你用上下文強制改變模型行為的成本，會隨著攻擊者的創意持續上升。

權重更新作為安全基礎設施

如果 System Prompt 是不可靠的防線，那解法是什麼？Aubakirova 和 a16z 的論點很明確：我們需要能夠在部署後持續更新模型權重的基礎設施。具體來說，當發現新的攻擊向量時，不只是在上下文裡加一條規則，而是把這個安全知識直接編碼進模型的參數裡，讓模型從根本層面「理解」為什麼這個行為是不被允許的。

這在技術上當然極其困難。你不能每次發現一個新漏洞就重新訓練整個模型，那需要數週的時間和數百萬美元的算力。持續學習研究要解決的核心問題正是：如何高效地更新模型的部分權重，在不破壞現有能力（避免所謂的「災難性遺忘」）的前提下，讓模型學會新的安全行為。

目前最有前景的方向包括：蒸餾（distillation），讓模型從自己的「安全版本」中學習，保留原有能力的同時加入新的安全約束；以及 LoRD 等高效微調技術，只更新模型中與安全行為最相關的一小部分參數。這些方法還在早期階段，但方向已經很清楚了。

安全團隊該怎麼想這件事

對於現在就在做 AI 安全的團隊來說，Aubakirova 的分析不是在說「放棄 System Prompt」。上下文層面的防禦仍然是必要的第一道防線，就像防火牆仍然有用，即使它不是萬能的。但它確實在說：不要把所有安全預算都投入在上下文層面的防禦上，因為這條路有結構性的天花板。

更務實的安全架構應該是分層的：上下文層處理已知的、常見的攻擊模式（快速部署、低成本）；權重層處理核心安全行為的根本強化（部署慢但防線堅固）。這跟傳統資安中「縱深防禦」（defense in depth）的概念一模一樣，只是場景換到了 AI 模型這個全新的技術棧。

持續學習不只是讓 AI「更聰明」的技術，它也是讓 AI「更安全」的必要基礎設施。當你的防線跟攻擊面在同一個層面時，這場軍備競賽永遠不會結束。把防線移到攻擊者碰不到的層面，才有辦法跳出這個迴圈。