複雜性從哪裡來,又往哪裡去?Sutskever 清單中最哲學的選擇

Sutskever 的閱讀清單中,有兩篇在討論咖啡裡的牛奶漩渦,還有一篇辛頓在 1993 年寫的論文。這三篇看似毫無關聯的文章,其實指向同一個核心:複雜性先升後降,而好的學習就是找到最佳壓縮。

複雜性從哪裡來,又往哪裡去?Sutskever 清單中最哲學的選擇

本文是「Ilya Sutskever 推薦讀什麼」系列第二篇。上一篇我們從 Kolmogorov 複雜度出發,理解了「壓縮即理解」這個核心概念。這篇要處理清單中最讓人困惑的選擇:兩篇關於咖啡的文章,以及一篇早了 20 年的先見之明。

一份 AI 閱讀清單裡,為什麼有兩篇在討論咖啡?

一份 AI 閱讀清單裡,為什麼會有兩篇在討論「把牛奶倒進咖啡會怎樣」的文章?

這大概是所有看過 Ilya Sutskever 閱讀清單的人,最先冒出的困惑之一。27 項推薦中,有經典的 Transformer 論文、有改變歷史的 AlexNet、有 Scaling Laws,這些都很好理解。但清單的第 2 項和第 20 項,分別是一篇部落格文章和一篇學術論文,都在認真討論咖啡裡牛奶漩渦的數學結構。更奇怪的是,寫這兩篇的人不是 AI 研究者,而是一位量子計算理論家。

把這兩篇跟清單第 6 項放在一起看,事情就有意思了。第 6 項是辛頓(Geoffrey Hinton)在 1993 年寫的論文,主題是用「描述長度」來衡量神經網路的好壞。咖啡漩渦和神經網路權重,表面上毫無關聯,但 Sutskever 顯然看到了一條貫穿兩者的線索。而那條線索,正是整份清單的核心論點:壓縮即智慧。

寫咖啡文章的量子計算大師

Scott Aaronson 是德州大學奧斯汀分校的計算機科學教授,也是全球最知名的量子計算理論家之一。他在 2012 年獲得美國國家科學基金會的 Alan T. Waterman 獎(頒給 40 歲以下最傑出的科學家或工程師),2020 年又拿到 ACM 計算獎。他的部落格 Shtetl-Optimized 是理論計算機科學界的必讀,文風幽默、觀點犀利,而且完全不怕碰爭議話題。他的書《Quantum Computing Since Democritus》把量子力學、計算複雜度、自由意志、時間旅行這些東西編織在一起,讀起來像一場橫跨兩千年的思想冒險。

Aaronson 的本業不是 AI 研究。但 2022 年,OpenAI 把他挖去做了兩年的 AI 安全理論研究。為什麼一家 AI 公司要找量子計算理論家?因為 AI 最前沿的問題,往往牽涉到計算本質、資訊理論、甚至物理學的根本概念。Sutskever 在 27 項清單中選了 Aaronson 的兩篇文章,讓他成為清單上少數擁有兩項入選作品的作者之一。這不是隨機的選擇,而是刻意的安排。在 Sutskever 看來,理解複雜性的數學,跟理解 Transformer 的注意力機制一樣重要。

牛奶倒進咖啡的那一刻

2011 年,Aaronson 在部落格上發了一篇文章,標題叫〈The First Law of Complexodynamics〉,也就是「複雜性動力學第一定律」。這個標題聽起來很正式,但文章從一個非常日常的場景開始:你拿起一杯黑咖啡,往裡面倒入牛奶。

倒入的瞬間,咖啡杯裡有兩層,上面是白色的牛奶,下面是黑色的咖啡。這是一個非常「簡單」的狀態,你只需要幾個字就能描述它:「上白下黑」。然後牛奶開始往下沉,咖啡開始往上湧,兩種液體交織出漂亮的漩渦紋路。這個中間狀態極其複雜,如果你想精確描述每一絲牛奶在咖啡中的位置,需要大量的資訊。但再過幾分鐘,一切混合均勻,杯子裡只剩下一杯棕色的液體。你又只需要幾個字就能描述它了:「均勻的淺棕色」。

這就是 Aaronson 想要形式化的直覺:複雜性先升後降。一開始簡單,中間變得非常複雜,最後又回到簡單。

這個模式跟熵(entropy)截然不同。熱力學第二定律告訴我們,封閉系統的熵只會單調遞增,從低到高,一路上升,永不回頭。咖啡和牛奶混合的過程中,熵確實一路上升,從有序的兩層走向無序的均勻混合。但「複雜性」或者說「有趣程度」走了一條完全不同的路:它先上升(那些漂亮的漩渦紋路正是複雜性的高峰),然後下降,回到一個無聊的均勻狀態。

Aaronson 的野心在於,他試圖用計算複雜度理論來精確定義這個「複雜性」。他從 Kolmogorov 複雜度的一個變體出發,叫做 sophistication(精巧度)。普通的 Kolmogorov 複雜度衡量的是「描述這個東西最少需要多長的程式」,而 sophistication 問的是另一個問題:這個東西的「結構」有多豐富?

打個比方。一本空白筆記本和一本被貓踩過鍵盤產生的亂碼,Kolmogorov 複雜度天差地遠,但兩者的 sophistication 都很低,因為前者沒有結構,後者的結構只是「隨機」。一本寫得好的小說則有很高的 sophistication,因為你需要一套精巧的規則才能描述它的內在結構。

但這裡有一個技術上的陷阱。在確定性系統中,任何時刻的狀態都可以用初始條件加上一個時間步計數器來描述,這只需要很少的位元。這意味著如果不加限制,複雜性永遠不會真的上升。Aaronson 的解法是引入計算效率約束:他定義了一個叫「complextropy」的量,要求描述過程中的取樣演算法和重建過程都必須在合理的時間內完成。這個約束改變了一切,因為雖然理論上你可以用初始條件加時間步來描述任何狀態,但實際計算出那個狀態需要天文數字的時間。當計算資源有限時,中間那些漩渦狀態確實需要更多位元來描述。

用細胞自動機煮一杯數位咖啡

光有直覺和理論定義還不夠。2014 年,Aaronson 和加州理工學院的物理學家 Sean Carroll 以及 Lauren Ouellette 合作,發表了一篇正式論文:〈Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton〉。他們要做的事情很直接:用電腦模擬一杯咖啡,然後實際測量複雜性是否真的先升後降。

他們的方法是建構一個二維的細胞自動機,模擬兩種「液體」的混合。他們沒有去模擬真正的流體力學,而是用離散的格子世界來捕捉混合的本質:粒子會移動、會碰撞、會交換位置。他們用 Kolmogorov 複雜度的近似版本,對粗粒化(coarse-grained)後的系統狀態進行測量,來追蹤「表觀複雜度」(apparent complexity)隨時間的變化。

結果確認了預期:在粒子會彼此作用的情況下,複雜性確實先上升到一個與系統尺寸成正比的峰值,然後下降,最終趨近於零。相反,如果粒子不會彼此影響、各走各的路,複雜性永遠不會真的升上去。這個對比很關鍵:複雜性不會從天上掉下來,它需要粒子之間的相互作用才會出現。就像神經元之間的連結創造了智慧。

這裡有一段值得一提的科學插曲。論文最初發表後,數學家 Brent Werness 發現原始版本中報告的複雜性上升其實是一個模擬錯誤,邊界像素的捨入造成了假象。Aaronson 團隊沒有掩蓋這個問題,而是修改了作用規則(從原本的簡單碰撞改為「剪切規則」),用新的模型重新驗證了結果,並把 Werness 加入共同作者名單。這段故事是科學自我修正的好例子。而自我修正這件事,也正好是好的學習系統應該具備的能力。

辛頓在 1993 年看到了什麼

現在把時間拉回到 1993 年。那一年,深度學習這個詞幾乎不存在。反向傳播(backpropagation)已經被發明了,但神經網路被學術界普遍認為是死路一條。機器學習的主流是支援向量機(SVM),學界的明星是統計學習理論。

在這個背景下,辛頓(Geoffrey Hinton)和他的學生 Drew van Camp 在多倫多大學寫了一篇論文,標題是〈Keeping Neural Networks Simple by Minimizing the Description Length of the Weights〉,意思是「透過最小化權重的描述長度來保持神經網路的簡潔」。

這篇論文的核心問題非常直接:什麼時候一個神經網路是「好的」?辛頓的回答同樣直接:當權重中包含的資訊量遠少於訓練資料中輸出向量包含的資訊量時,這個網路就是好的。換句話說,如果你的網路能用少量的「知識」(壓縮過的權重)來解釋大量的資料,那它就真正學到了東西,而不是死記硬背。

辛頓把這個直覺翻譯成了精確的數學。他引入了最小描述長度(Minimum Description Length, MDL)框架:訓練一個神經網路,本質上是在最小化一個兩部分的成本:L(weights) + L(data|weights)。第一部分是描述權重所需的位元數,第二部分是在已知權重的情況下描述剩餘誤差所需的位元數。好的網路兩部分都低:權重簡潔(壓縮良好),同時預測精確(剩餘誤差小)。壞的網路要嘛權重太複雜(過度擬合,把噪音也記住了),要嘛預測太差(欠擬合,什麼都沒學到)。

不過辛頓處理實數權重的手法才是這篇論文最聰明的地方。神經網路的權重是連續的實數,精確描述一個實數需要無限多位元。辛頓的解法是把權重當作從一個機率分佈 Q 中抽取的樣本,然後用 KL 散度(Kullback-Leibler divergence)來衡量 Q 與先驗分佈 P 之間的差距。這個差距就是權重的「資訊成本」。實作上,這等於給權重加上高斯雜訊,雜訊越大,權重越模糊,資訊量越少。訓練的過程就是找到一個最佳的雜訊水平:雜訊太少,網路記住了太多細節(過度擬合);雜訊太多,網路什麼都學不到(欠擬合)。

這個框架在 1993 年看起來像是一個優雅但沒什麼用的理論練習。但它實際上預見了後來深度學習中的一系列關鍵發展。2013 年出現的變分自編碼器(Variational Autoencoder, VAE)用的正是這個「bits-back argument」的數學框架。所有的正則化技巧(L2 正則化就是高斯先驗、L1 正則化就是拉普拉斯先驗)都可以在這個框架下得到資訊理論的解釋。甚至近年來備受關注的神經網路剪枝和量化技術,本質上也是在壓縮權重的描述長度。

辛頓在深度學習爆發前 20 年就寫下了這些。說他有先見之明,一點也不為過。

咖啡漩渦與神經網路的交會點

現在我們可以回到最初的問題:Sutskever 為什麼把這三篇放進同一份清單?

我的推測是這樣的。Aaronson 的複雜性動力學描述了一個普遍的模式:在封閉系統中,複雜性從低開始,上升到一個峰值,然後回落。辛頓的 MDL 框架告訴我們,好的學習就是找到資料的最佳壓縮。把這兩個想法合在一起,你會看到一個關於「智慧從何而來」的完整故事。

想像你正在訓練一個語言模型。一開始,模型的權重是隨機的,它對世界一無所知,這是低複雜性的起點。隨著訓練進行,模型開始學到越來越多的模式、規則、例外、細微差異,它的內部表徵變得極其複雜。

但如果訓練繼續下去,一個好的模型不會停留在「記住所有細節」的階段。它會開始「壓縮」,找到那些最本質的規律,用更簡潔的方式來表達它學到的東西。最終,一個真正強大的模型擁有高度壓縮的權重,卻能解釋龐大的資料。就像咖啡漩渦最終歸於均勻,但這個「均勻」背後蘊含了所有漩渦曾經攜帶的動力學資訊。

這跟宇宙的演化有一個令人不安的相似性。大爆炸之後,宇宙從極其簡單的高能粒子湯開始(低複雜性),經過 138 億年的演化,產生了星系、恆星、行星、生命、意識(高複雜性的峰值),而根據熱力學,在遙遠的未來,一切將歸於熱寂,成為均勻分布的低能粒子(又回到低複雜性)。Sutskever 選擇這些文章,我認為是因為他看到了一個統一的框架:智慧本身就是複雜性動力學中湧現的現象,而訓練神經網路的過程,從隨機初始化,經過複雜的中間狀態,最終找到簡潔有力的表徵,是這個宇宙級模式在矽晶片上的微縮重現。

我的觀察:為什麼這對我們理解 AI 很重要

如果你用過檔案壓縮軟體,你其實已經直覺地理解了這篇文章在講的東西。一個充滿隨機雜訊的檔案幾乎壓不下去,因為裡面沒有規律可以利用。一個全是零的檔案可以壓縮到極小,因為規律太簡單了。但一份寫得好的程式碼、一篇結構精巧的文章、一張有意義的照片,這些有「結構」的東西,壓縮率介於兩者之間。壓縮軟體在做的事,就是找出資料中的規律,然後用更短的方式來表達它。壓縮率越高,代表找到的規律越多,代表對資料的「理解」越深。

Sutskever 把這個直覺推到了極致。他認為,一個能完美預測下一個 token 的語言模型,就是一個完美的文字壓縮器。預測和壓縮是同一件事的兩面:如果你能準確預測接下來會出現什麼,你就不需要儲存它,因為你可以重新產生它。所以他的清單不是從 Transformer 論文開頭,而是從 Kolmogorov 複雜度和 MDL 原則開始。因為在他看來,這些才是搞懂「AI 到底在做什麼」的真正基礎。

下一篇,我們要看清單中唯一一篇博士論文。DeepMind 共同創辦人 Shane Legg 在 2008 年寫的《Machine Super Intelligence》。他做了一件大膽的事:用 篇 1 介紹的 Kolmogorov 複雜度,直接給「智慧」寫了一個數學定義。


← 上一篇:Kolmogorov 複雜度 → 下一篇:一篇博士論文如何定義「智慧」 📋 回到系列目錄:那份消失的 Email