一篇博士論文如何定義「智慧」——Shane Legg 與通往 AGI 的數學之路

Ilya Sutskever 閱讀清單中唯一一篇博士論文,來自 DeepMind 共同創辦人 Shane Legg。他在 2008 年用數學公式定義了「智慧」,這個定義至今仍是 AGI 研究的理論基石——而 Sutskever 創辦的 SSI,名字直接呼應了這篇論文的標題。

一篇博士論文如何定義「智慧」——Shane Legg 與通往 AGI 的數學之路

本文是「Ilya Sutskever 推薦讀什麼」系列的第 3 篇。本系列解讀 OpenAI 共同創辦人 Ilya Sutskever 給 John Carmack 的傳奇閱讀清單,探索一位頂尖 AI 科學家眼中「90% 重要的東西」。

27 項清單裡唯一一篇博士論文

Ilya Sutskever 的閱讀清單有 27 項。裡面有教科書、有期刊論文、有部落格文章、有線上課程。多數是某個領域裡公認的經典之作,由多位頂尖學者合力完成。但其中有一項格外突兀:它是一篇博士論文,只有一個作者,寫於 2008 年,比深度學習爆發整整早了四年。

這篇論文叫《Machine Super Intelligence》,作者是 Shane Legg。如果你對這個名字感到陌生,他的另一個身分你一定聽過:Google DeepMind 的共同創辦人,和 Demis Hassabis、蘇萊曼(Mustafa Suleyman)並列為這間改變了 AI 歷史的公司的三位創始者。但在創辦 DeepMind 之前,Legg 只是一個在瑞士小鎮盧加諾的研究機構裡埋頭寫論文的博士生,研究一個當時幾乎沒人在乎的問題:我們能不能用數學精確定義「智慧」是什麼?

Sutskever 把這篇論文放進 27 項清單,意味著他認為這個問題,以及 Legg 給出的回答,是理解 AI 的核心拼圖之一。而且如果你讀過本系列的前兩篇,你會發現這篇論文做了一件非常巧妙的事:它把我們之前討論過的 Kolmogorov 複雜度、最小描述長度、複雜性動力學這些看似分散的理論概念,全部收攏到一個統一的框架裡,然後用這個框架直接回答了一個根本問題。那個問題不是「怎麼做出好的 AI」,而是「什麼是智慧本身」。

從紐西蘭到瑞士:一個理論家的養成

Shane Legg 的學術路徑,本身就是一段不尋常的故事。他是紐西蘭人,在懷卡托大學完成本科學業後,1996 年在奧克蘭大學拿到碩士學位。他碩士論文的題目值得注意:Solomonoff 歸納法,正是 Kolmogorov 複雜度在「學習」和「預測」領域最重要的延伸理論。也就是說,Legg 從學術生涯的起點就鎖定了一個方向:用資訊理論的數學工具來理解「學習」這件事的本質。

這條路把他帶到了瑞士盧加諾的 IDSIA(Dalle Molle 人工智慧研究所)。IDSIA 在一般人眼中默默無名,但在 AI 理論界是個傳奇機構,LSTM 的共同發明者 Jürgen Schmidhuber 就在這裡。更重要的是,Legg 在 IDSIA 遇到了他的博士導師 Marcus Hutter。Hutter 是一位德國理論電腦科學家,在 2000 年代初提出了 AIXI 框架,一個被稱為「理論上最完美的通用智能體」的數學模型。AIXI 結合了 Solomonoff 的序列預測理論和序列決策理論,描述了一個在任何可計算環境中都能收斂到最優行為的理想化智能體。問題是,這個「完美智能體」需要無限算力才能運行,所以它是純理論的存在。

Legg 的博士論文在 Hutter 的 AIXI 基礎上更進一步。AIXI 描述了「最完美的智能體長什麼樣」,但它沒有回答一個更根本的問題:我們怎麼衡量一個智能體到底有多聰明?如果有兩個 AI 系統,一個在圍棋上無敵但不會做其他事,另一個在一百個不同任務上都表現不錯但沒有一項頂尖。哪個比較「聰明」?要回答這個問題,你需要的不只是一個好的演算法,你需要一個關於「智慧」本身的量化定義。這就是 Legg 論文的核心野心。

70 個定義,一個公式

Legg 在論文中做的第一件事,就是蒐集了超過 70 個關於「智慧」的定義。這些定義來自心理學家、哲學家、AI 研究者、認知科學家,橫跨了幾十年的學術辯論。有人說智慧是「解決問題的能力」,有人說是「適應新環境的能力」,有人說是「從經驗中學習的能力」,還有人說是「抽象思考的能力」。這些定義各有道理,但都是文字描述,模糊、主觀、無法量化。你沒辦法拿著這些定義去精確比較兩個 AI 系統誰比較聰明。

Legg 從這 70 多個定義中提煉出一個共同的核心:智慧是一個智能體在各種各樣的環境中達成目標的能力。注意這裡的關鍵詞是「各種各樣」。在某一個特定任務上表現好,那叫專長;在廣泛的、未知的環境中都能有效追求目標,那才叫智慧。這個直覺很符合我們日常對「聰明」的理解:一個只會下棋的 AI 我們不會說它很聰明,但一個能下棋、能寫文章、能做數學、能理解笑話的 AI,我們就會覺得它有某種「通用智慧」。

但光有直覺不夠,Legg 把這個想法翻譯成了一個精確的數學公式。我知道很多人看到數學公式可能眼神就開始飄了,或者進入一種自動休眠模式。但請給這個公式一個機會,因為它可能是整份 Sutskever 閱讀清單裡最直接回答「什麼是智慧」的一行字:

$$\Upsilon(\pi) = \sum_{\mu \in E} 2^{-K(\mu)} \cdot V_\mu^\pi$$

白話翻譯:智能體 $\pi$ 的通用智慧 = 所有可計算環境 $\mu$ 的加權總和, 其中每個環境的權重是 $2^{-K(\mu)}$($K$ 是 Kolmogorov 複雜度), $V_\mu^\pi$ 是智能體 $\pi$ 在環境 $\mu$ 中獲得的期望報酬。

用白話說:一個智能體有多聰明,取決於它在所有可能的環境中表現的加權平均。簡單的環境權重高,複雜的環境權重低。這裡的「簡單」和「複雜」就是用 Kolmogorov 複雜度來衡量的。描述一個環境規則所需的最短程式越短,這個環境就越「簡單」,在計算智慧分數時佔的比重就越大。

為什麼要這樣加權?因為如果所有環境都等權重,那一個設計來在某個極端罕見的怪異環境中得分的智能體,分數可能跟一個在所有正常環境中都表現良好的智能體一樣高。Legg 用 Kolmogorov 複雜度做加權,等於在說:我們更在乎一個智能體在「結構簡單、規律明確」的環境中的表現,因為那些才是宇宙中真正常見的環境。這其實就是奧卡姆剃刀的另一種表達:越簡單的環境越「正常」,越正常的環境越重要。

這個定義的優雅之處在於,它把我們在篇 1 討論的 Kolmogorov 複雜度直接嵌入了「智慧」的定義核心。壓縮不再只是一種理解資料的方式,它變成了衡量智慧本身的標尺。一個聰明的智能體,就是一個能在「結構可壓縮」的環境中有效行動的智能體。而且在這個框架下,AIXI,那個需要無限算力的理論最優智能體,自然而然地成為智慧分數最高的存在。它就是智慧的上界,所有真實的 AI 系統都在試圖逼近它,就像所有真實的壓縮演算法都在試圖逼近 Kolmogorov 複雜度這個理論極限一樣。

為什麼 Sutskever 把一篇 2008 年的博士論文放進清單?

想想 2008 年的 AI 世界跟今天有多不同。當時深度學習還沒起飛,AlexNet 要到 2012 年才橫空出世。多數 AI 研究者在做的是支持向量機、隨機森林這類傳統機器學習方法,「通用人工智慧」在學術圈幾乎是一個被嘲笑的概念。你要是在學術會議上認真討論 AGI,多數同行會覺得你不太嚴肅。但 Legg 就是在這個時候寫了一篇叫《Machine Super Intelligence》的論文,標題裡直接用了「超級智慧」三個字。

Sutskever 選這篇論文,我認為有三層理由。第一層是理論的收攏。如果你從篇 1 讀到這裡,你會發現一條清晰的線索:Kolmogorov 複雜度告訴你「什麼是理解」(壓縮即理解),MDL 原則告訴你「怎麼選好模型」(最好的模型是最好的壓縮器),複雜性動力學告訴你「複雜度怎麼演化」(先升後降,甜蜜點在中間)。Legg 的論文把這些全部收攏成一個統一的問題:如果壓縮即理解,那一個能在各種環境中「理解」並有效行動的智能體,就是最聰明的智能體。理論鏈條在這裡閉合了。

第二層是問題的層次。Sutskever 的清單裡有很多論文在討論怎麼做出好的 AI:更好的架構、更好的訓練方法、更好的最佳化技巧。但 Legg 的論文問的是一個更根本的問題:「好的 AI」到底是什麼意思?如果你不知道「智慧」的定義,你怎麼知道你在往正確的方向走?這就像建築師在畫藍圖之前,需要先搞清楚「好的建築」是什麼意思。Legg 提供的不是建築材料,而是設計原則。

第三層是人的因素。Legg 和 Sutskever 走了兩條平行但相互呼應的路。Legg 在 2008 年用數學定義了智慧,2010 年創辦 DeepMind 去實踐這個定義。Sutskever 在 2015 年共同創辦 OpenAI,追求的也是通用人工智慧。兩個人都不滿足於做「好用的 AI 產品」,他們都在追問一個更大的問題:機器能不能真正地理解世界?Sutskever 把 Legg 的論文放進清單,等於是在亮出自己的底牌。他在乎的不只是讓模型跑分更高,而是搞清楚智慧的本質。

從論文標題到公司名稱:一條穿越十六年的線

如果你只看理論,Legg 的論文可能就停留在學術史的一個注腳裡。但事實是,這篇論文的影響從 2008 年一路延伸到了 2024 年,而且延伸的方式非常戲劇化。2008 年,Shane Legg 完成了一篇叫《Machine Super Intelligence》的博士論文。2024 年,Ilya Sutskever 離開 OpenAI 後創辦了一間公司,名字叫 Safe Superintelligence Inc.,簡稱 SSI。把這兩個名字放在一起看,Machine Super Intelligence、Safe Superintelligence,巧合的程度已經超出了巧合的範疇。

Legg 創辦 DeepMind 後,這間公司在 2014 年被 Google 收購,後來與 Google Brain 合併為 Google DeepMind。Legg 至今仍在那裡擔任「首席 AGI 科學家」。注意這個職稱:不是首席「AI」科學家,是首席「AGI」科學家。他在 2011 年寫過一篇部落格文章,預測 2028 年有 50% 的機率出現「最小 AGI」,也就是能處理多數人類認知任務的人工智慧。這個預測他維持了超過十五年,至今沒有修改。以 2026 年的 AI 發展速度來看,這個預測已經不再像 2011 年那樣被當作天方夜譚。

Sutskever 走的路同樣值得細看。他在 OpenAI 擔任首席科學家多年,見證了 GPT 系列從默默無聞到改變世界。2024 年他離開 OpenAI,與 Daniel Gross 和 Daniel Levy 共同創辦 SSI,宣稱要走「直線通往安全超級智慧」。這間公司截至 2025 年 4 月已經募了 30 億美元,估值達 320 億美元。但只有大約 20 名員工,沒有產品,沒有營收。投資人押注的完全不是商業模式,而是 Sutskever 本人以及他對智慧本質的理解。

320 億美元的估值對上 20 個人和零產品,這個數字本身就是一種宣言。它在說:市場相信 Sutskever 掌握了某種對智慧的深層理解,而這種理解足以支撐一條通往超級智慧的道路。回頭看 Sutskever 的閱讀清單,你會發現 Legg 的論文佔據了一個特殊的位置。它不是清單中最技術性的項目,也不是最具工程實用性的項目,但它是唯一一個直接試圖回答「什麼是智慧」這個終極問題的項目。SSI 的名字呼應了 Legg 的論文標題,SSI 的使命,安全地建造超級智慧,則呼應了 Legg 論文的核心關懷。

我的觀察:理論家的勝利,以及它對我們的意義

從 Legg 到 Sutskever 再到 SSI,有一條線索值得臺灣讀者特別注意:這些人都不是從「做產品」開始的。Legg 花了好幾年在一個瑞士小鎮的研究所裡,研究一個當時幾乎沒有實用價值的問題。Sutskever 的閱讀清單裡排名最前面的不是最新的模型架構,而是 1960 年代的資訊理論和數學基礎。在一個所有人都在問「AI 能做什麼」的時代,這些人堅持先問「智慧是什麼」。

我覺得這對臺灣 AI 產業的啟示很直接。我們很擅長工程實作,半導體產業鏈的執行力全球頂尖。但在「定義問題」這個層面上,我們的聲量幾乎是零。不是說每個人都得去寫 AIXI 的論文,但如果你只停留在「怎麼用」的層次而從不問「為什麼有效」,你就永遠只能跟在別人後面走。Sutskever 之所以能創辦一間估值 320 億美元的公司,不是因為他寫了最多程式碼,而是因為他比多數人更深刻地理解了智慧的本質。這種理解,從他的閱讀清單就看得出來。

讀完本篇,加上前面的 Kolmogorov 複雜度複雜性動力學,我們已經走完了 Sutskever 知識體系的「理論層」。這三篇回答的都是同一類問題:什麼是理解?什麼是複雜?什麼是智慧?接下來,系列將進入「工程層」。當你有了這些理論基礎之後,怎麼把它們變成真正能看、能聽、能思考的機器?第一站,是卷積神經網路如何教會機器理解影像。


← 上一篇:複雜性從哪裡來,又往哪裡去 → 下一篇:看見的革命 📋 回到系列目錄:那份消失的 Email