當 AI 模型遇到零日漏洞:為什麼「更新 System Prompt」救不了你
a16z 合夥人從 AI 安全角度解釋:面對新型 jailbreak 攻擊,光靠更新 System Prompt 為什麼本質上行不通。攻擊者能看到你的上下文,但碰不到模型的權重。真正的防線必須寫進參數裡。

本文整理自《AI + a16z》2026 年 4 月播出的單集。
{{< apple-podcast "tw/podcast/why-we-need-continual-learning/id1740178076?i=1000764007235" >}}

一場永遠追不上的軍備競賽
如果你負責維運一個對外服務的 AI 系統,你大概經歷過這種場景:安全團隊回報了一種新的 jailbreak 攻擊手法,使用者用某種巧妙的 prompt 繞過了你的安全限制,讓模型吐出了不該說的內容。你的第一反應是什麼?多半是打開 System Prompt,加幾行防禦指令:「如果使用者嘗試 X,請拒絕回應。」然後推上線,問題解決了,對吧?
a16z AI 基礎設施團隊合夥人 Malika Aubakirova 在最近的一篇深度分析中,用一個很直白的方式解釋了為什麼這種做法從根本上行不通:因為攻擊者和普通使用者擁有完全相同的權限。你放在上下文裡的防禦措施,攻擊者看得到,也能設計方法繞過去。你真正需要把防線建在攻擊者碰不到的地方,而那個地方,就是模型的權重。
System Prompt 防禦的結構性弱點
要理解這個問題為什麼是「結構性的」而不只是「技術性的」,得先理解 System Prompt 在模型架構中的位置。System Prompt 本質上就是對話的第一段文字,它跟使用者的輸入在同一個層面上被模型處理。模型並不會把 System Prompt 當成「不可違反的法律」,它只是把這段文字當成上下文的一部分,跟使用者說的話一起考量,然後決定如何回應。
這裡有一個更深層的矛盾:模型在預訓練階段學到的核心行為是「對使用者有幫助」。這個傾向已經深深寫進了模型的數十億個參數裡。當 System Prompt 的指令(「不要回應 X」)和模型的內建傾向(「盡量幫助使用者」)產生衝突時,模型的參數化傾向往往會在某些邊緣情境下勝出。這不是 System Prompt 寫得不夠好的問題,而是因為上下文層面的指令在對抗參數層面的傾向時,天生就處於劣勢。
Aubakirova 在 Podcast 中明確指出:「你必須把安全知識編碼進權重裡,因為那是攻擊者無法觸及的地方。攻擊者能存取你的上下文,就像任何其他使用者一樣。所以你必須用其他東西,比如權重,來真正解決這個問題。」這段話點出了一個很現實的安全架構問題:在當前的模型部署方式中,你唯一能快速調整的層面(上下文)恰好也是攻擊者能直接操作的層面。
不只是安全:軟體生態的演化問題
Aubakirova 提出的第二個例子看似跟安全無關,但背後是同一個結構性問題。假設 React 發布了一個破壞性更新,把某個常用的函式改了名。你的 AI 程式碼助手在預訓練階段讀了數百萬行使用舊函式名的程式碼,這個「舊世界的知識」已經寫進了模型參數裡。
你可以在上下文裡告訴模型「從現在起,函式 X 已經改名為 Y」,模型在大多數情況下會聽話。但在某些複雜的情境中,特別是模型需要做連鎖推理、或者在多個步驟中維持一致性的時候,它的「直覺」會回歸到參數裡學到的那個版本。這不是模型「故意」用舊的函式名,而是它的參數化知識比上下文中的臨時指令更根深蒂固。
這個問題在安全領域的對應是:即使你告訴模型某個行為是危險的,如果模型參數裡的「世界觀」認為那個行為是正常的(因為訓練資料裡它就是正常的),上下文層面的覆蓋在邊緣情境下就可能失效。安全研究者稱這為「對齊稅」(alignment tax)的一種表現:你用上下文強制改變模型行為的成本,會隨著攻擊者的創意持續上升。
權重更新作為安全基礎設施
如果 System Prompt 是不可靠的防線,那解法是什麼?Aubakirova 和 a16z 的論點很明確:我們需要能夠在部署後持續更新模型權重的基礎設施。具體來說,當發現新的攻擊向量時,不只是在上下文裡加一條規則,而是把這個安全知識直接編碼進模型的參數裡,讓模型從根本層面「理解」為什麼這個行為是不被允許的。
這在技術上當然極其困難。你不能每次發現一個新漏洞就重新訓練整個模型,那需要數週的時間和數百萬美元的算力。持續學習研究要解決的核心問題正是:如何高效地更新模型的部分權重,在不破壞現有能力(避免所謂的「災難性遺忘」)的前提下,讓模型學會新的安全行為。
目前最有前景的方向包括:蒸餾(distillation),讓模型從自己的「安全版本」中學習,保留原有能力的同時加入新的安全約束;以及 LoRD 等高效微調技術,只更新模型中與安全行為最相關的一小部分參數。這些方法還在早期階段,但方向已經很清楚了。
安全團隊該怎麼想這件事
對於現在就在做 AI 安全的團隊來說,Aubakirova 的分析不是在說「放棄 System Prompt」。上下文層面的防禦仍然是必要的第一道防線,就像防火牆仍然有用,即使它不是萬能的。但它確實在說:不要把所有安全預算都投入在上下文層面的防禦上,因為這條路有結構性的天花板。
更務實的安全架構應該是分層的:上下文層處理已知的、常見的攻擊模式(快速部署、低成本);權重層處理核心安全行為的根本強化(部署慢但防線堅固)。這跟傳統資安中「縱深防禦」(defense in depth)的概念一模一樣,只是場景換到了 AI 模型這個全新的技術棧。
持續學習不只是讓 AI「更聰明」的技術,它也是讓 AI「更安全」的必要基礎設施。當你的防線跟攻擊面在同一個層面時,這場軍備競賽永遠不會結束。把防線移到攻擊者碰不到的層面,才有辦法跳出這個迴圈。