AI 技術前沿

當 AI 活在《記憶拼圖》裡：為什麼持續學習是下一個關鍵前沿

a16z AI 基礎設施合夥人 Malika Aubakirova 用諾蘭電影《記憶拼圖》比喻當前 AI 的困境：模型訓練後就凍結了，一切補救都只是便利貼和紋身。她提出三層框架拆解持續學習的光譜，並點名三個情境學習搞不定的真實場景。

2026 年 5 月 20 日 · 來源： AI + a16z

本文整理自《AI + a16z》Podcast 2026 年 4 月播出的單集。原始文章〈Why We Need Continual Learning〉由 Malika Aubakirova 與 Matt Bornstein 共同撰寫。

{{< apple-podcast "tw/podcast/why-we-need-continual-learning/id1740178076?i=1000764007235" >}}

你的 AI，其實有失憶症

諾蘭 2000 年的經典電影《記憶拼圖》（Memento）有一個令人難忘的設定：男主角 Leonard Shelby 患有順行性失憶症，記憶永遠停留在某個時間點，之後發生的一切都留不住。為了在這種狀態下活下去，他發展出一套土法煉鋼的外部記憶系統：重要的事寫便利貼，關鍵畫面用拍立得拍下來，最重要的資訊直接紋在身上。這些手段讓他勉強能在失憶的狀態下行動，但沒有人會說他「學會了」什麼。

a16z AI 基礎設施合夥人 Malika Aubakirova 最近發表了一篇文章〈Why We Need Continual Learning〉，並在 a16z 的 Podcast 上和主持人 Elena Burger 展開討論。她在開場就丟出了這個比喻：今天所有的大型語言模型，都活在《記憶拼圖》裡。

模型經歷預訓練階段，吸收大量世界知識，然後在某個時間點被切斷、部署到生產環境。從那一刻起，模型的參數就凍結了。不管外面的世界怎麼變，它的權重不會再更新。為了彌補這個限制，工程師在模型外圍搭建了層層鷹架：RAG 檢索系統就像 Leonard 的拍立得，讓模型能存取外部的最新資訊；Agent 框架就像便利貼，串接各種工具和行動序列；系統提示詞就像紋身，是一組持久的指令，讓模型在每次對話中都記得自己該扮演什麼角色。

這套鷹架確實有用。但 Aubakirova 想問的是一個更根本的問題：這些到底是解決方案，還是精巧的權宜之計？

情境學習確實有用，不必急著否認

Aubakirova 的論述有一個讓人印象深刻的特點：她先幫對手辯護。她說，任何關於持續學習的誠實討論，都必須從承認情境學習（in-context learning）確實有用開始。

她舉了兩個例子。第一個是 Andrej Karpathy（前 OpenAI / Tesla AI 總監）的自動研究專案，展示了模型在情境窗口內進行複雜推理和檢索的能力。第二個是 Claude Code：底層模型人人都能用，但它讓人覺得「有魔力」的關鍵在於對情境的精心編排，包括存取使用者的檔案系統、建立記憶、提供 bash 存取權限。同一個模型，不同的情境編排，產出天差地別的結果。

懷疑論者的立場其實很有道理。簡單粗暴但堪用的介面一直在贏，因為它們太基礎、太實用了。現階段的情境工程已經能處理大量任務，為什麼要把事情搞複雜？Aubakirova 不否認這一點。但她接下來要說的是：問題不在於情境學習是否有用，問題在於它是不是天花板。

三道情境學習跨不過去的牆

為了說明天花板在哪裡，Aubakirova 舉了三個具體的場景。這不是理論推演，是在實務中真的會撞上的問題。

第一個來自數學史。史丹佛研究員 Yu Sun 提出了一個精彩的類比：費馬最後定理懸而未決超過 350 年，這段期間所有相關的數學文獻都是公開的，任何人都讀得到。但問題不在於「能不能查到已知的東西」。安德魯·懷爾斯（Andrew Wiles）花了七年近乎與世隔絕的時間，發明了全新的數學技術，把橢圓曲線和模形式兩個原本不相干的分支連結起來，才終於在 1995 年完成證明。真正的發現需要創造前所未有的知識，不是檢索已經存在的東西。這正是情境學習做不到的事。

第二個來自資安。想像你的模型部署上線後，出現了一種新的越獄攻擊手法。你試著更新系統提示詞，加上一行「不要回應這類請求」。但這不會奏效。模型的參數在訓練階段就已經深深學會了「要對使用者有幫助」，而攻擊者和一般使用者共享同一個情境窗口，你放在情境裡的防禦措施，攻擊者也看得到。真正有效的防線必須編碼在模型的權重裡，那是攻擊者碰不到的地方。這個論點很有力：情境是公共空間，權重才是上鎖的保險箱。

第三個來自軟體開發的日常。假設一個模型在預訓練階段學過 React 有一個函式叫 X，但新版 React 做了破壞性變更，把 X 改名為 Y。你可以在情境窗口裡寫得很清楚：「X 已經不存在了，請用 Y。」但模型的參數裡對 X 的直覺太深了。當預訓練的直覺和情境裡的指令打架時，直覺往往會贏。這個問題每個用 AI 寫程式的開發者都遇過：你跟它說了十次不要用舊的 API，它還是會忍不住用回去。

這三個場景指向同一個結論：情境學習的限制不在於它不夠好，而在於它有結構性的上限。

壓縮框架：學習究竟發生在哪一層？

Aubakirova 在文章中提出了一個三層框架來拆解這個問題。她用的詞不是「記憶」而是「壓縮」（compaction）：知識被壓縮到模型的哪一層，決定了學習的深度和持久度。

第一層是情境層，也就是非參數學習。這是目前最成熟也最擁擠的領域。向量資料庫公司如 Pinecone 提供 RAG 的基礎設施，Letta 和 Mem0 這類新創則在做 Agent 的記憶鷹架。核心限制很明確：情境窗口的長度有限，怎麼在有限的空間裡塞進最有用的資訊，就是這一層的核心問題。Aubakirova 特別強調，情境學習本身就是持續學習的一種形式，只是不是她文章著力探討的方向。

第二層是模組層，介於純情境和完整權重更新之間的中間地帶。一篇來自史丹佛的論文叫 Cartridges，研究的是如何透過更新 KV Cache（鍵值快取）來實現一種輕量、可適應的學習。不需要重新訓練整個模型，只在特定模組上做局部調整。這個方向還在研究階段，但概念上提供了一條有意思的中間路線：比情境更持久，比全面更新權重更輕量。

第三層是權重層，也就是完整的參數學習。這是 Aubakirova 花最多篇幅討論的方向，也是目前最早期的一個。有些團隊透過強化學習和更好的資料管線來推進，有些則更激進地直接挑戰 Transformer 架構本身，認為現有架構天生不適合持續學習，必須從底層重新設計。

一個耐人尋味的訊號是：Aubakirova 和她團隊接觸的所有前沿實驗室，沒有任何一家只押注單一路線。每家都同時有多個團隊在不同的典範上平行推進。這個「對沖」策略說明了一件事：連做 AI 最前沿研究的人，自己都不確定最後哪條路會通。

部署後還能變聰明嗎？這才是終極測試

Aubakirova 在 Podcast 尾聲引用了 Ilya Sutskever（SSI 執行長、OpenAI 共同創辦人）最近的一段話：在追逐 AGI 的過程中，我們可能瞄過頭了。人類不是 AGI，但人類有一個 AGI 目前做不到的能力：在工作中學習，從經驗中變得更好。

這段話重新定義了持續學習的測試標準。不是「模型能不能在基準測試上跑出更高分」，而是一個更根本的問題：一個模型部署到真實世界之後，接觸到訓練時從沒見過的東西，它能不能學會？用更技術的語言說，就是分布外（out-of-distribution）的推論期學習。

Berkeley 的研究團隊和其他實驗室正在試圖為這件事建立正式的基準測試。這項工作的困難本身就說明了問題有多新，我們連「持續學習」到底該怎麼量化都還沒有共識。不過已經有一些早期信號。史丹佛的 Yu Sun 在測試期訓練（test-time training）方向的研究，特別是他的 Discover 論文，展示了模型在推論階段改變自身結構來應對全新問題的能力。這不是從既有知識中檢索答案，而是在遇到新問題的當下，即時發展出新的解題策略。雖然還很早期，但這是目前最接近「在工作中學習」的具體案例。

我的觀察：便利貼用得再好，也不等於真的學會了

回到《記憶拼圖》。Leonard Shelby 的便利貼系統讓他能在失憶的狀態下勉強運作，但這不是學習。他只是用越來越精巧的外部工具來模擬學習的效果。

當前的 AI 產業在做的事非常類似。我們在情境工程、RAG 管線、Agent 記憶架構上投入了大量的創造力和資本。這些努力不是白費的，它們確實讓凍結的模型能做到更多事情。但 Aubakirova 提出的問題值得正視：如果我們把所有精力都花在幫失憶症患者設計更好的便利貼，而不是去治療失憶症本身，我們可能永遠走不出這個循環。

持續學習還在非常早期的階段。權重層的突破什麼時候來、以什麼形式來，沒有人說得準。但至少有一件事是清楚的：前沿實驗室已經在下注了，只是他們同時下了好幾個注。對 AI 基礎設施的創業者和投資人來說，這可能是一個值得留意的訊號：下一波大機會也許不在模型外圍的鷹架上，而在模型本身能不能在部署後繼續成長。

Aubakirova 在 Podcast 結尾說得直白：正在做持續學習的創辦人，歡迎來找 a16z 聊。「不然的話，我們都會被困在自己的《記憶拼圖》裡。」