AI 技術前沿

把數學變成遊戲：DeepMind 的 AlphaProof 如何從棋盤走向奧數金牌

新書《The Proof in the Code》揭露了 AlphaProof 幕後的關鍵人物 Thomas Hubert 的故事。這位法日混血的圍棋高手，如何從 AlphaGo 的勝利出發，找到讓 AI 用強化學習「下數學棋」的方法，最終在 2024 國際數學奧林匹亞拿下金牌等級成績。

2026 年 6 月 12 日 · 來源： Quanta Magazine / The Proof in the Code

$把數學變成遊戲：DeepMind 的 AlphaProof 如何從棋盤走向奧數金牌$

2021 年底的某個晚上，Thomas Hubert 在倫敦的公寓裡點開了一支 YouTube 影片。

影片是兩年前在微軟研究院一間小會議室錄的，講者是倫敦帝國學院的數學家 Kevin Buzzard，講題叫「數學的未來」。Buzzard 剃著光頭，穿著黑色數學 T-shirt 配一條鮮豔的花褲子，在投影幕前來回踱步，用一種幾近狂熱的語氣描述他的夢想：如果全世界的數學家都用一套叫 Lean 的程式語言來寫證明，會發生什麼事。他的想像從瑣碎（Lean 幫教授改考卷）到末日（AI 靠數學推理稱霸世界），每一個都講得信誓旦旦。

在 Buzzard 上台之前，Lean 的創造者 Leo de Moura 做了簡短的開場。他提到他的年輕同事 Daniel Selsam 剛剛發起了一項挑戰，叫做「IMO 大挑戰」（IMO Grand Challenge），目標是打造一個能在國際數學奧林匹亞（IMO）拿到金牌的 AI 系統。de Moura 說了一句讓 Hubert 印象深刻的話：「如果你覺得圍棋很難，那是一個有限的行動空間。這項競賽是無限的行動空間，充滿了展現人性的神奇招數。」

看著這支影片，Hubert 意識到一件事：他可能是全世界最適合接下這個挑戰的人。

圍棋之子

Hubert 的人生軌跡像是專門為這一刻設計的。他在巴黎長大，父親是法國圍棋全國冠軍，為了讀圍棋書自學了日文，後來到日本參加世界錦標賽，在那裡遇見了 Hubert 的日本母親。Hubert 跟著父親學棋，拿下法國高中圍棋全國冠軍。但他的野心不只是當棋手。

在巴黎中央理工學院和史丹佛大學取得數學金融碩士學位後，Hubert 進了金融業。工作一開始很刺激，但很快就無聊了。他覺得自己學得太慢，缺少能互相激盪的同事。同時，他父親很久以前提過的一個想法始終揮之不去：寫一個能下圍棋的電腦程式。

Hubert 花了一年自修，上遍 Coursera 的相關課程，讀了無數論文。有一天他發現了 DeepMind 研究員 David Silver 的個人網站，上面展示了早期用神經網路預測圍棋下一手的研究。這個網站像是一道閃電。它也證實了 Hubert 的直覺：DeepMind 已經把圍棋定位為人工智慧的試金石。2015 年中，他申請了 DeepMind 的工作，第一次面試失敗了。六個月後他再試一次，憑著圍棋選手的背景，被錄取為研究工程師，加入目標是打造超人類圍棋 AI 的團隊。

從 AlphaGo 到 AlphaZero：征服有限遊戲

接下來的故事已經被寫進了 AI 的經典敘事，但《The Proof in the Code》提供了內部視角。

團隊首先打造了 AlphaGo。他們用數千局人類棋譜訓練神經網路，讓系統學會下棋的基本模式和判斷。然後用「強化學習」讓系統自我對弈數百萬局，根據輸贏來更新對好棋的理解。2016 年，AlphaGo 對上世界排名第一的韓國棋手李世乭。第二局的第 37 手成為歷史時刻：AlphaGo 把棋子放在棋盤右側一個看起來像錯誤的位置，李世乭站起來離開房間，花了將近十五分鐘才決定下一手。那一手不是錯誤，它扭轉了整盤棋。AlphaGo 最終以四勝一負贏得系列賽。

但 AlphaGo 的棋風仍然帶有人類的痕跡，因為它的初始訓練來自人類棋譜。DeepMind 想知道：如果完全不給人類知識，只給規則，AI 能下得更好嗎？他們打造了 AlphaGo Zero，一個從零開始的系統。它只知道規則，其他一切都要自己摸索。第一局它亂下一通，但透過強化學習迅速進步。三天的自我對弈訓練之後，DeepMind 讓 AlphaGo Zero 和擊敗李世乭的 AlphaGo 對弈一百局。AlphaGo Zero 全勝。

DeepMind 把這套方法推廣成更通用的 AlphaZero，訓練它下西洋棋和日本將棋。它在這些遊戲中同樣達到超人類水準，包括擊敗了經過多年人工調校的頂級西洋棋引擎 Stockfish。Alpha 系列有效征服了棋盤遊戲的領域。

尋找下一座山

征服棋盤之後，DeepMind 共同創辦人 Demis Hassabis（哈薩比斯）開始推動第二階段的願景。他在 2016 年告訴 Pushmeet Kohli：圍棋只是第一階段，真正的目標是把這些方法用在對人類有實際意義的問題上。Kohli 接受了邀請，在 DeepMind 成立了「AI for Science」部門。

這個部門像一個大學研究系，多個小團隊各自追尋不同方向。其中一個團隊打造了 AlphaFold，能預測蛋白質的三維結構，讓哈薩比斯和同事 John Jumper 拿到了 2024 年的諾貝爾化學獎。另一個團隊 AlphaTensor 尋找更快的矩陣乘法演算法，在某些情況下打破了 1969 年以來的紀錄。還有 AlphaCode，一個能撰寫 Python 和 C++ 程式碼的 AI 模型。

但這些不同的計畫有一個共同的核心邏輯：強化學習的本質是在龐大的可能性空間中找到最佳選項。棋盤遊戲是這個概念的完美試驗場，因為規則清楚、勝負明確。問題是：還有什麼領域也具備這些特徵？

Hubert 參與了 AlphaTensor 和 AlphaCode 之後，知道答案。下一座山是數學。

為什麼數學比圍棋難得多

從萊布尼茲到希爾伯特，雄心勃勃的思想家早就認定數學是形式推理的巔峰。解數學題和下圍棋在結構上確實有相似之處：兩者都有規則，都有明確的勝利標準（圍棋是佔領更多領地，數學是建構一個邏輯完整的證明）。這正是 Selsam 在提出 IMO 大挑戰時的洞察：數學可以被「玩」。

但圍棋和數學之間的複雜度差距是天文數字級的。圍棋的行動空間是有限的：一步棋大約有 250 個合法落子點，一盤棋通常在 150 到 250 手之間結束。所有可能的棋局數量估計在 10 的 360 次方到 10 的 700 次方之間，已經是天文數字，但終究是有限的。

數學則是無限的行動空間。在證明的任何一步，你都面對無窮多個可能的下一步。更棘手的是，有些最關鍵的「棋步」可能是從未被人類發現過的概念或技巧。圍棋 AI 可以透過暴力搜尋找到好棋，但數學 AI 無法暴力搜尋所有可能的推理路徑。de Moura 在那場演講裡的警告是認真的：這是一個「充滿展現人性的神奇招數」的無限空間。

這就是 Lean 扮演的關鍵角色。要做強化學習，你需要一個「遊戲」。幾千年來，人類沒有一個能讓電腦「下數學棋」的環境。但 Lean 改變了這個局面。在 Lean 裡，每一步推導要嘛被接受，要嘛被拒絕。一個證明要嘛完整通過，要嘛存在缺陷。這種清晰的「贏或輸」回饋訊號，正是強化學習需要的。Hubert 看著 Buzzard 的影片，意識到了這一點：Lean 就是數學的棋盤。

AlphaProof 的誕生

書中沒有詳細披露 AlphaProof 的內部技術架構，這不意外，DeepMind 對核心方法向來保密。但 Hartnett 透過 Hubert 和 Kohli 的訪談，勾勒出了基本輪廓。

AlphaProof 的訓練方式延續了 AlphaGo Zero 的核心理念：從規則出發，透過大量自我對弈學習。只不過這次的「棋盤」是 Lean 的形式化數學環境，「下棋」是嘗試建構數學證明，「贏」是 Lean 接受了你的證明。系統會反覆嘗試不同的推導路徑，根據成功或失敗來更新對「好的推理步驟」的理解。

這和大型語言模型的做法截然不同。ChatGPT 之類的 LLM 是透過模仿人類文本的模式來生成回應，它們很有創意，但不可靠。它們會用流暢的語言包裝錯誤的推理，也就是所謂的「幻覺」問題。在日常對話中這也許可以接受，但在數學中，一步錯就全盤皆錯。

AlphaProof 選擇了另一條路。它不模仿人類怎麼寫數學，而是透過反覆嘗試和 Lean 的即時回饋來發展自己的推理策略。這更慢，也更困難，但產出的每一步都經過 Lean 的驗證。書中引述數學家們早期測試 LLM 的經驗做為對比。Kevin Buzzard 曾和同事試用 ChatGPT 做數學，發現它的表現就像他在課堂上看到的普通學生一樣：對簡單問題回答得頭頭是道，但一碰到陌生題目就開始胡說八道，而且說得極有自信。陶哲軒的評語更直接：LLM 像是「過度自信的大學生」，會提供建議但分不清好壞。

2024 年 IMO：金牌等級

2024 年七月，國際數學奧林匹亞在英國巴斯（Bath）舉行。這是全球最頂尖的中學生數學競賽，六道題目每題七分，滿分 42 分。那一年，金牌的門檻是 29 分。

DeepMind 派出了兩套系統聯合應戰：AlphaProof 負責代數和數論題，另一套系統 AlphaGeometry 2 負責幾何題。聯合成績拿到了 28 分，距離金牌門檻 29 分只差一分。但讓觀察者印象深刻的不只是分數：AlphaProof 解出了被認為那屆最難的第 6 題，展現出的推理深度令人意外。Google DeepMind 宣布這是 AI 在數學推理領域的歷史性里程碑。

陶哲軒也在巴斯。他在 IMO 期間發表了一場演講，描繪他對 AI 輔助數學的願景。他認為 AlphaProof 的成功驗證了一個核心思路：形式化驗證系統（Lean）加上強化學習，能讓 AI 在純粹推理任務中達到頂尖水準。但他也清楚指出，IMO 題目和真正的數學前沿研究之間仍有巨大鴻溝。IMO 題目是精心設計過的，保證有解，而且用初等方法就能解決。前沿數學問題可能需要發明全新的概念和框架，這是目前任何 AI 都做不到的。

不只是數學

AlphaProof 的意義遠不止於數學競賽。

書中描述了 AI 實驗室內部一個更大的野心：他們希望在數學推理中鍛鍊出來的 AI 能力，可以移植到其他需要嚴格邏輯推理的領域。蛋白質結構預測（AlphaFold）、程式碼生成（AlphaCode）、矩陣運算最佳化（AlphaTensor），這些都是在不同領域驗證同一套核心能力。數學被視為這條路線的最終試煉場，因為它要求的推理深度和精確度遠超其他領域。

de Moura 自己也看到了這個趨勢。他在書中承認，連他這個習慣性只看到 Lean 缺點的人，都不得不承認 Lean 正在產生的影響。AI 實驗室開始把 Lean 視為一塊關鍵拼圖：它能提供清晰的回饋訊號來訓練 AI，也能驗證不可靠的大型語言模型的輸出。在通往通用人工智慧（AGI）的路上，數學推理和形式化驗證被認為是核心能力之一。

但 Hartnett 的書也誠實地呈現了另一面。Lean 的使用者介面仍然「麻煩得要命」（Carnegie Mellon 大學 Jeremy Avigad 的用語），使用者必須記住各種特殊語法，一個字元打錯就會讓整個證明失敗。Mathlib 裡有數十萬條定理，你得記住它們的名字才能快速引用。陶哲軒在 PFR 形式化的最後，就因為不知道一個內建指令的存在，多寫了一百行不必要的程式碼。

從棋盤到證明

Thomas Hubert 在那個倫敦的夜晚看完 Buzzard 的影片之後，開始了一段將近三年的旅程。從父親教他的圍棋，到 DeepMind 的 AlphaGo，到征服棋盤遊戲的 AlphaZero，再到把數學變成 AI 可以「下棋」的 AlphaProof。這段旅程的弧線清晰得像是事後編排的，但書中呈現的是一連串不確定的選擇和賭注。

Hubert 第一次面試 DeepMind 失敗了。圍棋 AI 在 AlphaGo 之前看起來還是科幻。從棋盤遊戲跳到數學推理，在大型語言模型席捲一切的 2022 年，看起來像是逆潮流而行。但 Hubert 和他的團隊押注的是一個簡單的洞察：如果你能把一個問題變成「遊戲」，有明確的規則和勝負判定，那強化學習就能發揮威力。Lean 讓數學變成了這樣的遊戲。

這本書的副標題是「一部真理機器如何改變數學與 AI」。AlphaProof 的故事告訴我們，這個改變是雙向的。數學家用 Lean 來驗證自己的證明，AI 用 Lean 來學習如何推理。一個巴西工程師十年前為了抓軟體 bug 而寫的程式語言，正在成為連接人類數學智慧和機器推理能力的橋樑。這大概是 Leo de Moura 當初完全沒有預料到的。