當 AI 活在《記憶拼圖》裡:為什麼持續學習是下一個關鍵前沿
a16z AI 基礎設施合夥人 Malika Aubakirova 用諾蘭電影《記憶拼圖》比喻當前 AI 的困境:模型訓練後就凍結了,一切補救都只是便利貼和紋身。她提出三層框架拆解持續學習的光譜,並點名三個情境學習搞不定的真實場景。

本文整理自《AI + a16z》Podcast 2026 年 4 月播出的單集。原始文章〈Why We Need Continual Learning〉由 Malika Aubakirova 與 Matt Bornstein 共同撰寫。
{{< spotify "episode/45nAQe1Zwb6iRC09ZKG9La" >}}
{{< apple-podcast "tw/podcast/why-we-need-continual-learning/id1740178076?i=1000764007235" >}}
你的 AI,其實有失憶症
諾蘭 2000 年的經典電影《記憶拼圖》(Memento)有一個令人難忘的設定:男主角 Leonard Shelby 患有順行性失憶症,記憶永遠停留在某個時間點,之後發生的一切都留不住。為了在這種狀態下活下去,他發展出一套土法煉鋼的外部記憶系統:重要的事寫便利貼,關鍵畫面用拍立得拍下來,最重要的資訊直接紋在身上。這些手段讓他勉強能在失憶的狀態下行動,但沒有人會說他「學會了」什麼。
a16z AI 基礎設施合夥人 Malika Aubakirova 最近發表了一篇文章〈Why We Need Continual Learning〉,並在 a16z 的 Podcast 上和主持人 Elena Burger 展開討論。她在開場就丟出了這個比喻:今天所有的大型語言模型,都活在《記憶拼圖》裡。
模型經歷預訓練階段,吸收大量世界知識,然後在某個時間點被切斷、部署到生產環境。從那一刻起,模型的參數就凍結了。不管外面的世界怎麼變,它的權重不會再更新。為了彌補這個限制,工程師在模型外圍搭建了層層鷹架:RAG 檢索系統就像 Leonard 的拍立得,讓模型能存取外部的最新資訊;Agent 框架就像便利貼,串接各種工具和行動序列;系統提示詞就像紋身,是一組持久的指令,讓模型在每次對話中都記得自己該扮演什麼角色。
這套鷹架確實有用。但 Aubakirova 想問的是一個更根本的問題:這些到底是解決方案,還是精巧的權宜之計?
情境學習確實有用,不必急著否認
Aubakirova 的論述有一個讓人印象深刻的特點:她先幫對手辯護。她說,任何關於持續學習的誠實討論,都必須從承認情境學習(in-context learning)確實有用開始。
她舉了兩個例子。第一個是 Andrej Karpathy(前 OpenAI / Tesla AI 總監)的自動研究專案,展示了模型在情境窗口內進行複雜推理和檢索的能力。第二個是 Claude Code:底層模型人人都能用,但它讓人覺得「有魔力」的關鍵在於對情境的精心編排,包括存取使用者的檔案系統、建立記憶、提供 bash 存取權限。同一個模型,不同的情境編排,產出天差地別的結果。
懷疑論者的立場其實很有道理。簡單粗暴但堪用的介面一直在贏,因為它們太基礎、太實用了。現階段的情境工程已經能處理大量任務,為什麼要把事情搞複雜?Aubakirova 不否認這一點。但她接下來要說的是:問題不在於情境學習是否有用,問題在於它是不是天花板。
三道情境學習跨不過去的牆
為了說明天花板在哪裡,Aubakirova 舉了三個具體的場景。這不是理論推演,是在實務中真的會撞上的問題。
第一個來自數學史。史丹佛研究員 Yu Sun 提出了一個精彩的類比:費馬最後定理懸而未決超過 350 年,這段期間所有相關的數學文獻都是公開的,任何人都讀得到。但問題不在於「能不能查到已知的東西」。安德魯·懷爾斯(Andrew Wiles)花了七年近乎與世隔絕的時間,發明了全新的數學技術,把橢圓曲線和模形式兩個原本不相干的分支連結起來,才終於在 1995 年完成證明。真正的發現需要創造前所未有的知識,不是檢索已經存在的東西。這正是情境學習做不到的事。
第二個來自資安。想像你的模型部署上線後,出現了一種新的越獄攻擊手法。你試著更新系統提示詞,加上一行「不要回應這類請求」。但這不會奏效。模型的參數在訓練階段就已經深深學會了「要對使用者有幫助」,而攻擊者和一般使用者共享同一個情境窗口,你放在情境裡的防禦措施,攻擊者也看得到。真正有效的防線必須編碼在模型的權重裡,那是攻擊者碰不到的地方。這個論點很有力:情境是公共空間,權重才是上鎖的保險箱。
第三個來自軟體開發的日常。假設一個模型在預訓練階段學過 React 有一個函式叫 X,但新版 React 做了破壞性變更,把 X 改名為 Y。你可以在情境窗口裡寫得很清楚:「X 已經不存在了,請用 Y。」但模型的參數裡對 X 的直覺太深了。當預訓練的直覺和情境裡的指令打架時,直覺往往會贏。這個問題每個用 AI 寫程式的開發者都遇過:你跟它說了十次不要用舊的 API,它還是會忍不住用回去。
這三個場景指向同一個結論:情境學習的限制不在於它不夠好,而在於它有結構性的上限。
壓縮框架:學習究竟發生在哪一層?
Aubakirova 在文章中提出了一個三層框架來拆解這個問題。她用的詞不是「記憶」而是「壓縮」(compaction):知識被壓縮到模型的哪一層,決定了學習的深度和持久度。
第一層是情境層,也就是非參數學習。這是目前最成熟也最擁擠的領域。向量資料庫公司如 Pinecone 提供 RAG 的基礎設施,Letta 和 Mem0 這類新創則在做 Agent 的記憶鷹架。核心限制很明確:情境窗口的長度有限,怎麼在有限的空間裡塞進最有用的資訊,就是這一層的核心問題。Aubakirova 特別強調,情境學習本身就是持續學習的一種形式,只是不是她文章著力探討的方向。
第二層是模組層,介於純情境和完整權重更新之間的中間地帶。一篇來自史丹佛的論文叫 Cartridges,研究的是如何透過更新 KV Cache(鍵值快取)來實現一種輕量、可適應的學習。不需要重新訓練整個模型,只在特定模組上做局部調整。這個方向還在研究階段,但概念上提供了一條有意思的中間路線:比情境更持久,比全面更新權重更輕量。
第三層是權重層,也就是完整的參數學習。這是 Aubakirova 花最多篇幅討論的方向,也是目前最早期的一個。有些團隊透過強化學習和更好的資料管線來推進,有些則更激進地直接挑戰 Transformer 架構本身,認為現有架構天生不適合持續學習,必須從底層重新設計。
一個耐人尋味的訊號是:Aubakirova 和她團隊接觸的所有前沿實驗室,沒有任何一家只押注單一路線。每家都同時有多個團隊在不同的典範上平行推進。這個「對沖」策略說明了一件事:連做 AI 最前沿研究的人,自己都不確定最後哪條路會通。
部署後還能變聰明嗎?這才是終極測試
Aubakirova 在 Podcast 尾聲引用了 Ilya Sutskever(SSI 執行長、OpenAI 共同創辦人)最近的一段話:在追逐 AGI 的過程中,我們可能瞄過頭了。人類不是 AGI,但人類有一個 AGI 目前做不到的能力:在工作中學習,從經驗中變得更好。
這段話重新定義了持續學習的測試標準。不是「模型能不能在基準測試上跑出更高分」,而是一個更根本的問題:一個模型部署到真實世界之後,接觸到訓練時從沒見過的東西,它能不能學會?用更技術的語言說,就是分布外(out-of-distribution)的推論期學習。
Berkeley 的研究團隊和其他實驗室正在試圖為這件事建立正式的基準測試。這項工作的困難本身就說明了問題有多新,我們連「持續學習」到底該怎麼量化都還沒有共識。不過已經有一些早期信號。史丹佛的 Yu Sun 在測試期訓練(test-time training)方向的研究,特別是他的 Discover 論文,展示了模型在推論階段改變自身結構來應對全新問題的能力。這不是從既有知識中檢索答案,而是在遇到新問題的當下,即時發展出新的解題策略。雖然還很早期,但這是目前最接近「在工作中學習」的具體案例。
我的觀察:便利貼用得再好,也不等於真的學會了
回到《記憶拼圖》。Leonard Shelby 的便利貼系統讓他能在失憶的狀態下勉強運作,但這不是學習。他只是用越來越精巧的外部工具來模擬學習的效果。
當前的 AI 產業在做的事非常類似。我們在情境工程、RAG 管線、Agent 記憶架構上投入了大量的創造力和資本。這些努力不是白費的,它們確實讓凍結的模型能做到更多事情。但 Aubakirova 提出的問題值得正視:如果我們把所有精力都花在幫失憶症患者設計更好的便利貼,而不是去治療失憶症本身,我們可能永遠走不出這個循環。
持續學習還在非常早期的階段。權重層的突破什麼時候來、以什麼形式來,沒有人說得準。但至少有一件事是清楚的:前沿實驗室已經在下注了,只是他們同時下了好幾個注。對 AI 基礎設施的創業者和投資人來說,這可能是一個值得留意的訊號:下一波大機會也許不在模型外圍的鷹架上,而在模型本身能不能在部署後繼續成長。
Aubakirova 在 Podcast 結尾說得直白:正在做持續學習的創辦人,歡迎來找 a16z 聊。「不然的話,我們都會被困在自己的《記憶拼圖》裡。」