記憶、推理、關係理解——Sutskever 清單指向 AGI 的三根柱子

Ilya Sutskever 閱讀清單中有三篇來自 DeepMind 的論文,分別處理外部記憶、關係推理、以及時序中的關係理解。它們在 2014-2018 年沒有帶來商業突破,卻指出了通往 AGI 最核心的三個問題。這些問題至今仍是 AI 研究的前沿。

記憶、推理、關係理解——Sutskever 清單指向 AGI 的三根柱子

本文是「Ilya Sutskever 推薦讀什麼」系列的第 8 篇。本系列解讀 OpenAI 共同創辦人 Ilya Sutskever 給 John Carmack 的傳奇閱讀清單,探索一位頂尖 AI 科學家眼中「90% 重要的東西」。

這個系列走到現在,我們已經看過壓縮理論複雜性的興衰智慧的數學定義CNN 怎麼教機器看圖RNN 怎麼讓機器記住順序。這些主題有一個共同特徵:它們處理的都是「感知」,看見圖片、聽懂句子、記住順序。但感知只是智慧的一半。你可以辨認出桌上有一顆紅球和一顆藍球,但如果有人問你「紅球左邊那個東西是什麼形狀?」,你需要的就不只是辨認了,而是推理。你得理解「左邊」這個空間關係,找到符合條件的物體,再讀取它的屬性。這件事對人類來說毫不費力,對 2014 年的神經網路來說卻幾乎不可能。

這篇要處理的三篇論文全部來自 DeepMind,發表時間從 2014 年橫跨到 2018 年。它們問的是同一個問題:如何讓神經網路不只識別模式,還能「想事情」?記住需要記住的、推理物件之間的關係、在時間軸上維持對關係的理解。這是 Sutskever 清單中最接近 AGI 野心的一組論文,也是最少被大眾討論的一組。

NTM:給神經網路一本筆記本

要理解 Neural Turing Machine(NTM)在解決什麼問題,先想像一個日常場景。你在心裡算 17 乘以 23,大多數人會覺得有點吃力。但給你一張紙一枝筆,同樣的問題突然變得很簡單:先算 17 乘以 3 等於 51,寫下來;再算 17 乘以 20 等於 340,寫下來;最後把兩個數字加起來,391。紙和筆沒有讓你「更聰明」,它們提供的是一個外部記憶體:你可以把中間結果寫下來、等需要的時候再讀出來,而不是全部塞在腦子裡。

2014 年之前的神經網路就像一個只能心算的人。它所有的「記憶」都鎖在網路的參數裡,就是那些在訓練過程中被調整的權重矩陣。這些參數大小固定,訓練完就不會再改變。模型處理新輸入時,資訊在網路中流過一遍就結束了,沒有地方可以暫存中間結果。LSTM 稍微改善了這個問題,它有一條傳送帶可以保留一些歷史資訊,但那條傳送帶的容量很有限,而且沒辦法精確地「查找」特定的記憶。它更像是一個不斷被改寫的摘要,不是一本可以翻頁查閱的筆記本。

DeepMind 研究員 Alex Graves 在 2014 年 10 月發表的〈Neural Turing Machines〉提出了一個直截了當的解法:給神經網路一個真正的外部記憶體。這個記憶體是一個矩陣,每一列就是一個記憶槽,神經網路可以透過「讀取頭」和「寫入頭」跟它互動。名字裡的「圖靈機」(Turing Machine)不是隨便取的。圖靈(Alan Turing)在 1936 年提出的理論機器,核心元件就是一條可以讀寫的無限紙帶加上一個有限狀態的控制器。NTM 的設計直接致敬了這個架構:控制器是一個神經網路,紙帶是外部記憶矩陣。

這裡有一個關鍵的技術問題要解決。傳統的電腦程式要讀取記憶體,會指定一個精確的位址,例如「讀取第 42 格的內容」。但神經網路是用梯度下降來訓練的,梯度下降需要所有操作都是可微分的,而「跳到第 42 格」是離散動作,沒辦法算梯度。Graves 的解法是用注意力機制(attention)來取代硬性的位址定位。讀取頭不是跳到某一格,而是對所有記憶槽計算一個「注意力權重」,然後把所有格子的內容按權重加總讀出來。權重高的格子貢獻大,權重接近零的格子幾乎不影響結果。這樣一來,整個讀寫過程都是連續且可微分的,可以用梯度下降端到端訓練。

Graves 用幾個看似簡單的任務來測試 NTM:複製一段序列、排序、聯想回憶(給一個提示,回想出之前存過的配對資訊)。這些任務對傳統程式來說是入門級的,對當時的神經網路來說卻根本做不到。NTM 的結果讓人驚訝:它不只完成了這些任務,學到的策略還跟人類寫的演算法高度相似。在複製任務中,讀取頭會從左到右掃描輸入,寫入頭同步把資訊寫到記憶體,最後再從頭到尾讀出來。模型自己「發明」了一個跟人類直覺一致的複製程序。

Graves 的背景讓這項工作有了更深的脈絡。他在愛丁堡大學讀的是理論物理,後來到慕尼黑工業大學轉攻 AI,指導教授是 Jürgen Schmidhuber,就是跟 Hochreiter 一起發明 LSTM 的那位。之後他又到多倫多大學跟 Hinton 做博士後研究。這個師承系譜意味著 Graves 對序列處理和記憶問題有極深的理解。

他更為人知的貢獻是發明了 CTC(Connectionist Temporal Classification),這個技術在 2014 到 2020 年間成為端對端語音辨識的核心方法,Apple 的 Siri 和 Google 的語音助手背後都用過它。2016 年,Graves 把 NTM 的概念進一步發展成 Differentiable Neural Computer(DNC),發表在《Nature》上。DNC 能做更複雜的事,例如在倫敦地鐵路線圖上找最短路徑、推斷家族樹中缺失的關係。從 NTM 到 DNC,Graves 一直在追問同一件事:怎麼讓神經網路從直覺反應進化成有意識地運用工作記憶來解題。

關係推理:當 AI 學會看見「之間」

NTM 解決的是記憶的問題。但智慧還需要另一種能力:理解事物之間的關係。想像一個場景,桌上有一顆紅色的大球、一個藍色的小圓柱體、一個灰色的金屬立方體。如果問你「跟藍色圓柱體同樣大小的物體是什麼材質?」,你會先找到藍色圓柱體,確認它的大小,然後掃描其他物體找到同樣大小的那個,再讀取它的材質屬性。整個過程涉及至少三步推理,每一步都需要比較不同物件的不同屬性。

這類問題在 AI 領域有一個專門的測試場:Stanford 的 CLEVR 資料集。CLEVR 包含大量電腦生成的 3D 場景,每個場景有幾個簡單的幾何物體(球、立方體、圓柱體),搭配各種關於物體屬性和空間關係的問題。2017 年之前,最好的視覺問答(VQA)模型在 CLEVR 上的準確率只有 68.5%,人類可以達到 92.5%。差距很大,而且差距最大的地方恰好就是需要關係推理的問題,涉及比較、空間定位、屬性傳遞的題目。

DeepMind 的 Adam Santoro 和同事們在 2017 年提出了一個解法,簡單到讓人覺得不太合理。他們設計了一個叫做 Relation Network(RN)的模組,核心想法用一句話就能說完:把場景中所有物件兩兩配對,讓一個小型神經網路處理每一對的關係,然後把所有配對的結果加總起來。Santoro 的背景是計算神經科學,他在多倫多大學讀博士時研究的是記憶鞏固(memory consolidation),這或許解釋了他為什麼對「事物之間如何連結」這個問題特別敏感。

用數學寫出來,整個模組的公式就一行:對場景中的每一對物件 (oᵢ, oⱼ),用一個函數 g 計算它們之間的關係,把所有配對的結果加總,再通過另一個函數 f 得出最終答案。g 和 f 都是多層感知器(MLP),透過訓練資料學習。這個設計的關鍵在於「所有配對」。模組不需要事先知道哪些物件之間有關係、哪些沒有,它強制考慮了所有可能的組合,讓網路自己從資料中學會哪些關係重要、哪些可以忽略。

結果超出所有人預期。加上 Relation Network 模組之後,模型在 CLEVR 上的準確率從 68.5% 飆升到 95.5%,遠遠超過之前的最佳方法,也超過了人類的 92.5%。研究者還用一個簡化版的資料集(Sort-of-CLEVR)證明了一件事:再強大的 CNN 本身也不具備通用的關係推理能力,但只要加上這個簡單的模組就可以。這裡的啟示很明確:解決某些問題,關鍵不在於模型有多大或多深,而在於你給了它什麼樣的「歸納偏置」(inductive bias),也就是在架構設計中預先植入的結構假設。Relation Network 的歸納偏置是:世界是由物件和它們之間的關係組成的。一旦你把這個假設寫進架構裡,即使是一個很小的模型也能做到之前大模型做不到的事。

Relational RNN:讓關係推理跟上時間

Relation Network 解決了一個重要問題,但它有一個明顯的限制:它處理的是靜態的場景。你給它一張圖片、一個問題,它輸出一個答案就結束了。現實世界不是這樣的。你跟人對話的時候,對方十分鐘前提到的一個細節可能跟現在這句話有關。你看一部電影的時候,第一幕出現的角色關係會影響你理解第三幕的劇情轉折。這類需要在時間軸上持續追蹤物件之間關係的任務,Relation Network 做不了。

2018 年,同樣是 Santoro 帶領的 DeepMind 團隊在 NeurIPS 發表了〈Relational Recurrent Neural Networks〉,試圖把關係推理能力注入 RNN 的時間維度。他們提出的核心元件叫做 Relational Memory Core(RMC)。RMC 的設計思路可以這樣理解:傳統 LSTM 的隱藏狀態是一個單一的向量,所有資訊都混在裡面。RMC 把隱藏狀態拆成多個記憶槽,每個槽是矩陣的一行,代表一個獨立的記憶單元。到了每個時間步,RMC 不只是把新輸入塞進去、把舊資訊推出來,它還讓所有記憶槽之間互相「對話」。具體的做法是透過多頭點積注意力(multi-head dot product attention),每個記憶槽可以查詢其他記憶槽的內容,根據相關性更新自己。

如果你讀過本系列前面幾篇,可能已經注意到了。多頭點積注意力,這不就是 Transformer 的核心元件嗎?沒錯。Relational RNN 實質上是把 Transformer 的 self-attention 機制嵌入了 RNN 的循環結構中。每一個時間步,模型都在記憶之間做一次小型的 Transformer 式計算,讓記憶能主動地根據其他記憶的內容來更新自己。這是一個 RNN 和 Transformer 的混合體。在 Transformer 已經問世的 2018 年,這篇論文選擇不拋棄循環結構,而是把兩種架構的優勢結合在一起。

實驗結果證明了這個設計的價值。在 WikiText-103 語言建模任務上,RMC 達到了當時的最佳表現。在一個叫做 N-th Farthest 的合成任務上(需要在多個時間步中追蹤多個物件的距離關係),RMC 遠超標準 LSTM。在強化學習場景(Mini PacMan)中,RMC 也展現了更強的規劃能力。這些結果指向同一個結論:讓記憶之間能互相溝通、互相推理,比單純增加記憶容量更能提升模型處理複雜任務的能力。

為什麼 Sutskever 選這三篇?

回頭看這三篇論文的組合,Sutskever 的意圖很清楚。NTM 處理的是記憶,如何讓神經網路擁有一個可以讀寫的外部工作空間。Relation Network 處理的是推理,如何讓神經網路理解物件之間的關係。Relational RNN 處理的是兩者的結合,如何在時間軸上持續追蹤和更新關係。記憶、推理、關係理解,這三個能力恰好對應了通用人工智慧(AGI)最核心的三根柱子。一個真正智慧的系統,必須能記住過去、推理當下、在時間中維護對世界的結構性理解。

然而事實是:這三篇論文發表於 2014 到 2018 年之間,全部來自 DeepMind,每一篇在學術上都有很高的影響力(Relation Network 的引用次數超過 1,600 次),卻沒有任何一篇帶來大規模的商業應用。NTM 和 DNC 在工業界幾乎沒有被直接部署,因為外部記憶體的訓練和管理非常困難,計算成本高,優化不穩定。Relation Network 的想法很漂亮,但資料規模一放大,所有配對的計算量就以平方速度爆炸。Relational RNN 雖然結合了兩個世界的優點,終究還是一個循環架構,逃不開串行處理的速度瓶頸。

歷史的勝利者走了另一條路:用更大的模型、更多的資料、更暴力的算力。2017 年的 Transformer 拋棄了循環結構,2018 年的 BERT 和 2019 年的 GPT-2 開始了預訓練的規模競賽,到 2022 年的 ChatGPT,scaling 路線贏得了市場和大眾的注意力。在這條路線上,推理能力是從海量資料的統計規律中「湧現」出來的,不是被架構設計「塞」進去的。

把視線拉長看,這三篇論文的核心問題並沒有消失,反而正在以新的形式回歸。現代大型語言模型的 tool use(工具使用),本質上就是 NTM 外部記憶體的放大版。模型學會在需要的時候呼叫外部工具來讀寫資料庫、搜尋網路、執行程式碼。RAG(Retrieval-Augmented Generation)更是外部記憶概念的直系後代:模型在生成回答之前,先去一個外部知識庫裡「讀取」相關資訊。而 2024 年以來的推理模型(如 o1、o3),則是在用不同的方式嘗試解決 Relation Network 當年就在處理的問題:如何讓模型做多步推理,而不只是單次的模式匹配。

跟本系列篇 1 討論的壓縮理論也有一層呼應。壓縮一段資料,如果裡面的元素之間存在關係(因果的、空間的、時間的),你必須理解這些關係才能有效壓縮。一個純粹的統計模型可以捕捉到相關性,「紅色」和「球」經常一起出現。但要壓縮到極致,你必須理解「紅球在藍球的左邊」這種結構性資訊。Sutskever 選這三篇,等於在說:真正的壓縮不只靠統計相關,還得推理出因果和結構。

我的觀察:被超車的先行者

這三篇論文的歷史處境很值得臺灣的技術工作者思考。它們提出了正確的問題,設計了精巧的解法,發表在頂級場域,獲得了學術社群的高度認可。但它們沒有成為主流,因為另一條看起來更「笨」的路線,把模型做大、把資料灌多,在工程上更容易規模化,最終贏得了這場競賽。

「沒有成為主流」不代表「沒有影響力」。NTM 在 2014 年提出的注意力式記憶存取,是通往 Transformer self-attention 的關鍵墊腳石之一。時間線很清楚:NTM 的 soft attention over memory(2014)、Bahdanau 的 sequence-to-sequence attention(2014-2015)、Transformer 的 self-attention(2017)。概念不是憑空出現的,它在一篇又一篇論文中被打磨、被簡化,最終被放進一個恰好能規模化的架構裡。NTM 本身沒有活到最後,但它的 DNA 活在了每一個 Transformer 模型裡。

更耐人尋味的是 Sutskever 自己的軌跡。2024 年底,他在 NeurIPS 的演講中承認預訓練可能正在接近天花板,未來需要的是推理能力和對世界的結構性理解。這正是這三篇 DeepMind 論文在 2014 到 2018 年就在探索的方向。歷史繞了一大圈:先是有人用精巧的設計嘗試解決推理問題,然後 scaling 路線暫時讓這些嘗試顯得多餘,現在 scaling 開始碰壁了,推理又重新成為最熱門的研究方向。

我覺得這個故事對任何在做技術選型或研究方向選擇的人都有一個提醒:有些工作的價值不在於它當下能不能商業化,而在於它是否在問正確的問題。NTM 問的是「怎麼讓神經網路使用工作記憶」,Relation Network 問的是「怎麼讓神經網路理解關係」,Relational RNN 問的是「怎麼在時間中維持關係推理」。這些問題在 2014 年是前沿,在 2026 年仍然是前沿。Sutskever 把它們放進一份「90% 重要的東西」的清單裡,不是因為它們已經被解決了,而是因為它們定義了還需要被解決的東西。有時候,提出一個好問題比給出一個好答案更持久。


← 上一篇:Attention Is All You Need → 下一篇:規模的力量 📋 回到系列目錄:那份消失的 Email