AlphaGo 之父黃士傑最新論文:AI 花幾百美元,解開數學家 56 年解不了的難題
Google DeepMind 發表 AlphaProof Nexus 系統,自主解開 9 道 Erdős 數學難題與 44 道 OEIS 猜想,每題成本僅數百美元。AlphaGo 首席工程師、台灣出身的黃士傑是論文共同作者,他認為 AI 數學能力已超越多數碩博士生。

「頂尖 AI 的數學能力,其實已經超越了多數的碩博士生。」這句話不是來自追逐流量的科技 KOL,而是出自 AlphaGo 首席工程師、台灣出身的黃士傑(Aja Huang)。他在最近一篇臉書貼文中寫下這段話,語氣篤定,沒有保留。讓他能這樣說的底氣,是 Google DeepMind 5 月底發表的一篇論文。這篇論文展示了名為 AlphaProof Nexus 的 AI 系統,它自主解開了 9 道連數學家都苦思數十年的開放性難題,其中兩道懸而未決超過 56 年。每解一道的成本?僅數百美元。
黃士傑是這篇論文 20 位共同作者之一,他在貼文中提到自己「過去幾個月短暫參與數學 AI 專案」。對於曾在 2016 年替 AlphaGo 落子、見證 AI 擊敗圍棋世界冠軍的他來說,這次的突破意義可能更加深遠。因為這一次,AI 不只是在遊戲中贏了人類,而是開始做出人類做不到的數學發現。
九道難題,每道幾百美元
Google DeepMind 這篇 5 月 22 日發表在 arXiv 的論文,全名是《Advancing Mathematics Research with AI-Driven Formal Proof Search》(以 AI 驅動的形式化證明搜尋推進數學研究)。研究團隊把 AlphaProof Nexus 系統丟給了 353 道尚未解決的 Erdős 問題,最終成功解出 9 道。這個數字乍看不高,但要理解它的份量,必須知道這些題目到底有多難:它們是全世界最頂尖的數學家花了數十年都啃不動的硬骨頭。
被解開的 9 道題中,最引人注目的是 Erdős 第 12 號問題的兩個子題。它們在 1970 年提出,涉及無限可整除性約束集合的存在性,需要用到中國剩餘定理的區塊建構法。全世界的數學家花了 56 年都沒解出來,AI 用一次運算就找到了證明路徑。其他被攻克的題目涵蓋了加法組合學、圖論、丟番圖逼近等領域,編號包括第 125、138、152、741 和 846 號問題。
除了 Erdős 問題,AlphaProof Nexus 還證明了整數數列線上大全(OEIS)中 492 道開放猜想裡的 44 道,並在最佳化理論、代數幾何、量子光學等不同領域的研究合作中展現實力。其中一個亮點是解決了代數幾何中一個懸而未決 15 年的對數凹性問題,另一個是在最佳化理論中證明了錨定梯度下降上升法(Anchored Gradient Descent-Ascent)精確的 O(1/t) 收斂率,並且發現了全新的參數組合。
而整件事最讓人意外的,或許是成本。論文指出,每成功解一道 Erdős 問題的推論成本大約是「幾百美元」。如果單獨使用 AlphaProof 的強化學習引擎,每道題大約消耗 27.5 小時的 TPU v6e 運算時間,折合約 60 美元。一頓稍微好一點的晚餐,就夠 AI 解一道困擾人類數學家半世紀的問題。
Erdős 問題:數學界的終極懸賞
要理解這個突破有多大,得先認識保羅.艾狄胥(Paul Erdős)這位傳奇人物。他是二十世紀最多產的數學家之一,一生發表超過 1,500 篇論文,與超過 500 位合作者共同研究,在數學界有「問題之王」的稱號。但讓他留下最深遠影響的,不只是他解了多少題,更是他提了多少題。
艾狄胥一生中提出了上千個數學問題,其中許多附帶獎金,金額從 25 美元到數千美元不等。這些問題的特色是陳述簡單,解起來卻極其困難。它們像數學界的「懸賞令」,每一道都精準地觸及某個數學領域的核心困難。截至 2025 年底,在已編目的 1,105 道 Erdős 問題中,仍有 685 道處於未解決狀態,超過六成。
這些問題之所以重要,不只是因為它們很難。艾狄胥挑選問題有五個標準:陳述的簡潔性、預期的解題難度、解答帶來的後續成果、問題開闢的研究方向,以及數學性質的直覺可表達性。換句話說,每一道 Erdős 問題都是通往新知識的一扇門。數學家在嘗試解這些問題的過程中,經常發展出全新的理論工具和研究方法,即使最終沒有成功,旅程本身也充滿收穫。如今,AI 一口氣推開了其中 9 扇門,而且是用人類數學家幾十年都推不開的那幾扇。
技術解密:AI 如何「證明」數學
AlphaProof Nexus 能做到這件事的關鍵,在於它不是靠統計猜測,而是透過嚴格的形式化證明。要理解這一點,可以把它跟 ChatGPT 做個對比。你問 ChatGPT 一道數學題,它會用自然語言給你一段「看起來很有道理」的推導過程,但裡面可能藏著邏輯漏洞,甚至引用根本不存在的定理。AlphaProof Nexus 走的是完全不同的路:它的每一步證明都必須通過 Lean 4 定理證明器的機器驗證,任何邏輯錯誤都會被當場抓出來,不存在「看起來對但其實不對」的空間。
系統的核心架構由四層逐步遞進的智慧代理組成。最基礎的 Agent A 是一組獨立的證明搜尋代理,它們使用大型語言模型進行多輪推理,每一步都把結果丟給 Lean 檢查。Agent B 在此基礎上加入了 AlphaProof 的強化學習引擎,針對那些基礎代理解不了的子目標做定向攻擊。Agent C 引入演化演算法,建立一個共享的「證明草稿庫」,讓不同代理交換和改良彼此的思路,用 Elo 評分系統為這些草稿排名。最強的 Agent D 整合所有能力,使用 Gemini 3.1 Pro 生成證明、Gemini 3.0 Flash 做草稿比較評估。
在事後分析中,研究團隊發現一個有趣的結果:最基礎的 Agent A 其實也能解出全部 9 道 Erdős 問題,只是在最困難的題目上花費更高。而單獨使用 AlphaProof 強化學習引擎(不搭配語言模型)的對照組,在 64 小時 TPU 運算後,一道都沒解出來。這說明了大型語言模型的「直覺」和形式化驗證的「嚴謹」缺一不可。論文也坦率承認,系統確實會產生「幻覺引理」,也就是聲稱某個結果已被證明但文獻中其實不存在。但正因為有 Lean 把關,這些錯誤被攔截下來,而不是被當作正確答案發表出去。
同一週的數學大戰
AlphaProof Nexus 的論文發表時間點,本身就值得玩味。2026 年 5 月 20 日,OpenAI 先宣布旗下的推理模型獨立推翻了一個 80 年歷史的 Erdős 猜想,也就是 1946 年提出的平面單位距離問題。隔天,5 月 21 日,DeepMind 的 AlphaProof Nexus 論文就出現在 arXiv 上,一口氣交出 9 道 Erdős 問題加 44 道 OEIS 猜想的成績單。兩大 AI 實驗室幾乎在同一天亮出各自的數學突破,這個巧合很難不讓人聯想到某種暗中較勁。
兩家公司的技術路線截然不同。OpenAI 走的是「自然語言推理加人類驗證」:AI 用自然語言提出證明的核心概念和草稿,再由數學家團隊接手驗證、潤飾、正式發表。DeepMind 走的是「形式化證明加機器驗證」:AI 直接在 Lean 中寫出完整的形式化證明,每一步都由機器自動驗證,不需要人類數學家逐行審核。兩條路線各有優劣,但 DeepMind 的方式在可擴展性上有明顯優勢,因為機器驗證可以 24 小時不間斷地大規模進行,不受人類專家產能的限制。
這場較量還有一個不能不提的前情。2025 年 10 月,OpenAI 高層 Kevin Weil 在社群平台上宣稱「GPT-5 發現了 10 道未解 Erdős 問題的解法」。消息一出,AI 圈沸騰。但很快就被拆穿:GPT-5 並沒有解決任何新問題,它只是做了一次文獻搜尋,找到了已經被數學家發表、但尚未被 Erdős 問題資料庫收錄的既有解答。維護該資料庫的數學家 Thomas Bloom 公開稱這是「嚴重的失實陳述」,Meta 首席 AI 科學家楊立昆(Yann LeCun)在社群上公開嘲笑,DeepMind 執行長哈薩比斯(Demis Hassabis)稱之為「令人尷尬」。半年後,OpenAI 用一道貨真價實的新證明挽回了顏面,但 DeepMind 幾乎同時端出了規模更大的成果。
從圍棋到數學:台灣土博士的 AI 之路
在這場全球 AI 數學競賽中,一個臺灣名字的出現格外引人注意。黃士傑在 20 位論文作者中排第 12 位,但他的背景讓這篇論文對臺灣讀者有了特殊的意義。
黃士傑 1978 年出生於臺灣,從小熱愛圍棋,棋力達到業餘六段。他在國立交通大學資訊科學系畢業後,進入國立臺灣師範大學資訊工程研究所,一路讀到博士,花了將近十年。他的博士論文是研究蒙地卡羅樹搜尋法在電腦圍棋中的應用,這個題目後來成為 AlphaGo 的核心技術之一。在台師大期間,他開發了圍棋程式 Erica,2010 年在電腦奧林匹亞競賽中拿下圍棋冠軍。他從未出國留學,是臺灣學術圈所說的「土博士」,但他的研究成果讓全世界的 AI 實驗室注意到他。
2012 年,黃士傑受邀加入英國 AI 新創公司 DeepMind(2014 年被 Google 收購),成為第 40 號員工。他很快成為 AlphaGo 計畫的核心成員,是 2016 年 AlphaGo Fan 論文的第一作者之一,也是 2017 年 AlphaGo Zero 論文的主要作者。最讓人印象深刻的畫面,是 2016 年 AlphaGo 對戰韓國棋王李世石、2017 年對戰中國棋王柯潔的時候,坐在棋盤對面、替 AI 落子的那個人,就是黃士傑。他在 DeepMind 的多年間,還參與了一連串標誌性的 AI 專案,包括蛋白質結構預測的 AlphaFold、星海爭霸的 AlphaStar、語言模型 Chinchilla,以及 Gemini 和 Gemma。
如今他「短暫參與」了 AlphaProof Nexus 的數學 AI 專案。從圍棋的搜尋樹到數學證明的搜尋樹,看似跨了一大步,但底層思路其實一脈相承。AlphaGo 用蒙地卡羅樹搜尋法在棋盤上探索最優落子點,AlphaProof Nexus 用類似的搜尋策略在 Lean 的證明空間中探索最優證明路徑。棋盤變成了定理,棋子變成了推導步驟,但核心問題沒變:如何在龐大的可能性空間中,有效率地找到正確的路徑。
AI 時代,還需要學數學嗎?
黃士傑在臉書貼文中觸碰了一個敏感但無法迴避的問題:「既然 AI 在寫程式與數學都已如此強大,我們還需要學習這些科目嗎?」他自己的答案是肯定的,理由有兩個。第一,AI 的進步並不能取代邏輯思維的訓練。第二,學會了基本功才能理解、判斷甚至修正 AI 的答案。
這個觀點值得展開來看。AlphaProof Nexus 的論文本身就提供了最好的佐證。系統在解題過程中會產生「幻覺引理」,聲稱某個數學結果已被證明,但文獻中根本不存在。這些錯誤之所以能被識別,是因為有 Lean 的形式化驗證在把關。但在更普遍的場景裡呢?當 AI 用自然語言向你解釋一個數學概念或推導過程時,誰來判斷它是不是在胡說?答案是:只有具備足夠數學素養的人才行。AI 工具越強大,能使用它、審核它的人就越有價值。
更深一層想,AI 解題的方式和人類學數學的價值,根本是兩件不同的事。AlphaProof Nexus 透過大量運算和搜尋找到證明路徑,它不「理解」為什麼這個證明成立,它只是在形式系統中找到了一條從前提到結論的合法路徑。人類學數學的價值不只在於得出正確答案,更在於過程中培養的抽象思維、邏輯推理、模式辨識能力。這些能力在 AI 時代不但沒有貶值,反而更重要了,因為你需要它們來跟 AI 協作、審核 AI 的輸出、決定什麼問題值得交給 AI 去解。
論文的結論也呼應了這一點。作者群明確表示,他們把 AlphaProof Nexus 定位為「人機協作」的工具,而不是要取代數學家。AI 幫數學家處理大量的形式化驗證苦差事,讓人類有更多時間專注在真正需要創意和直覺的環節。就像計算機取代了手算,但沒有人因此說我們不需要學算數了。AI 證明系統可能取代的是重複性的形式化工作,但數學思維本身的價值只會更高。
不只是技術的問題
黃士傑臉書貼文最耐人尋味的部分,其實不是關於數學或 AI,而是他話鋒一轉談到了地緣政治。「或許很多人還沒意識到,AI 領域進展速度之快,正在且即將徹底改變許多行業,」他寫道,「這股浪潮必定會全面擴散到軍事與國際政經形勢,且主要圍繞在中美兩國的競合。」
這段話出自一位在 AI 最前線工作超過十年的臺灣科學家,份量不同一般。他看到的不只是 AI 能解數學題、能下圍棋這些技術成就,而是這些能力背後龐大的運算基礎設施、頂尖人才爭奪,以及由此延伸出的地緣戰略意涵。AlphaProof Nexus 用的是 Google 的 TPU 叢集和 Gemini 模型,OpenAI 用的是微軟 Azure 的 GPU 算力。這些都是耗資數百億美元打造的基礎設施,不是任何國家說有就有的。誰掌握了最強的 AI 能力,誰就在科學研究、軍事應用、經濟競爭中佔據結構性的優勢。
黃士傑最後寫道:「我個人當然希望台海和平,兩岸永續發展。不論兩岸之間是怎樣的(特殊)關係,都是人類世界一部分,必須與全球一同面對這場由 AI 引領的大變局。」從 AlphaGo 到 AlphaProof,從圍棋到數學證明,這位台灣土博士十多年來始終站在 AI 研究的最前沿。他的經歷本身就是一個提醒:AI 的突破從來不只是實驗室裡的故事。當 AI 能用幾百美元解開人類半世紀解不了的數學難題,這件事改變的不只是數學研究的方法,而是整個世界理解「什麼是可能的」的方式。這個「可能」的邊界,正在以超乎所有人想像的速度擴張。