從猜想到推翻:AI 終結數學界 80 年共識的完整故事

1946 年,匈牙利數學天才艾狄胥提出了一個關於平面上點與點之間距離的猜想。80 年來無人能推翻,也無人能證明。2026 年 5 月,OpenAI 的通用推理模型獨立找到了反例。這是 AI 第一次自主解決重大數學問題的完整紀錄。

從猜想到推翻:AI 終結數學界 80 年共識的完整故事

本文整理自 OpenAI 於 2026 年 5 月 20 日發表的研究論文、九位數學家的聯合評論(arXiv: 2605.20695),以及相關報導與社群討論。


一枚硬幣、一把尺,和一個困擾數學家 80 年的問題

在一張大桌子上放 n 枚硬幣。用一把尺量每兩枚之間的距離。問:在最理想的排列方式下,最多有多少對硬幣的距離恰好等於某個固定長度?

這是 1946 年匈牙利傳奇數學家保羅.艾狄胥(Paul Erdős)提出的問題。艾狄胥是二十世紀最多產的數學家之一,一生發表超過 1,500 篇論文,足跡遍布數論、圖論、組合學等多個領域。他有一個著名的習慣:為自己認為重要但困難的問題設定獎金,金額從 25 美元到 10,000 美元不等,視難度而定。單位距離問題的獎金是 500 美元,在他的體系裡屬於「困難但或許可解」的等級。

但 500 美元的獎金整整等了 80 年都沒有人來領。直到 2026 年 5 月 20 日,OpenAI 發表了一篇作者欄只寫「OpenAI」的數學論文,用代數數論的方法構造了一組反例,推翻了艾狄胥的猜想。更讓人意外的是,完成這項發現的不是任何人類數學家,而是一個通用 AI 推理模型,在沒有人類介入的情況下,自行找到了解法。


80 年的格子困局

要理解 AI 的突破為什麼重要,先得知道數學家們被困在哪裡。

艾狄胥自己給出了他認為最好的排列方式:正方形格子。想像棋盤的交叉點,每枚硬幣放在一個格點上。在這種排列中,每枚硬幣周圍會有好幾個鄰居恰好在目標距離上,整體的等距對數遠超線性增長。艾狄胥精確計算出,格子構造產生的等距對數大約是 n 的 1+C/log log n 次方。這個表達式裡 log log n 增長極為緩慢:n 等於一兆時,log log n 大約才 3。所以格子的表現雖然超過線性,但超出幅度微乎其微。艾狄胥的猜想是:不管怎麼排列,都不可能做得明顯更好。等距對的數量永遠達不到 n 的任何固定次方(比如 n 的 1.01 次方)。

80 年間,這個天花板始終沒有被突破。問題的另一面也停滯不前:已知的最佳上界是 n 的 4/3 次方,由 Spencer、Szemerédi 和 Trotter 建立。上界和下界之間的鴻溝巨大,而兩邊都幾乎沒有進展。有些數學家嘗試用解析方法縮小上界,有些人嘗試構造更好的點集來提高下界,但所有努力都撞上同一堵牆。組合數學泰斗諾加.阿隆(Noga Alon)後來承認:「鑒於這麼長的時間都沒有進展,猜想似乎是對的。」

格子構造的根本限制在於數學結構本身。艾狄胥用的是「高斯整數」Z[i] 這個固定的座標系統。在裡面,有些質數能被分解成兩個高斯整數的乘積(叫做「分裂質數」),這些分裂質數越多,格子上的等距對就越豐富。但在固定的高斯整數系統裡,分裂質數的增長速度有天然的數論極限,這直接決定了 log log n 的天花板。用一句話概括 80 年的僵局:所有人都在同一座棋盤上試圖找到更好的排列方式,但沒有人想到換一座棋盤。


AI 的破局:換棋盤,不換棋子

OpenAI 的 AI 模型找到的解法,核心思路恰恰是那個沒人嘗試過的方向:不改變點的排列方式,改變底層的數學結構。

在艾狄胥的方法中,你選一個固定的數域(高斯整數),然後盡可能利用在這個域上分裂的質數來構造等距對。AI 翻轉了這個邏輯:先固定一小組分裂質數,然後去尋找一個足夠「大」的數域,讓這些質數提供最大化的幾何結構。AI 使用了代數數論中的「無限不分歧類域塔」,一種由戈洛德-沙法列維奇定理保證存在的無窮數域序列。每一層數域都比上一層更複雜,但分裂質數的行為保持穩定。沿著這座塔往上爬,每一層都能構造出更大的點集,其中等距對以 n 的 1+δ 次方的速度增長。只要 δ 是正的,不管多小,就直接推翻了艾狄胥的猜想。

用比喻來說:艾狄胥在一座固定的城市裡數有多少條恰好一公里長的道路。AI 的方法是按照同一張道路規格書不斷擴建城市,讓每次擴建都產生更多符合規格的道路。因為城市可以無限擴建,最終的道路數量就能突破任何固定城市的上限。

OpenAI 研究員陳立傑(Lijie Chen)把單位距離問題的背景和已知結果描述成一道 prompt,交給一個通用推理模型。這個模型沒有針對單位距離問題做過專門訓練,也沒有配備特殊的數學工具。它自行探索了多條路線,最終收斂到類域塔的構造方案。OpenAI 的馬克.塞爾克(Mark Sellke)指出,過去數學家也考慮過類似方向,但認為它「太精細,難以實際執行」。AI 不會因為路線看起來前景不明就放棄,它可以「更全面地探索所有可能性」。整個過程是完全自動化的:AI 產出完整證明,內部系統自動判定正確,然後才交給人類專家驗證。

驗證分為兩階段。第一階段由 OpenAI 的塞爾克和梅塔布.索尼(Mehtaab Sawhney)確認核心數學正確性。第二階段由九位外部數學家逐行審閱,他們不僅確認結果,還各自提供了簡化版的證明路徑。人類專家改進的是表述方式,不是數學本身。塞巴斯蒂安.布貝克(Sebastian Bubeck)回憶最初看到結果時的反應:「這聽起來好到不像是真的。」陳立傑的感想更直接:「我預期 AI 遲早會在這方面做出成績,只是我的時間表被提前了。」


九位數學家的判決

論文發表同一天,菲爾茲獎得主蒂莫西.高爾斯(Timothy Gowers)在社群媒體上發文,稱這是「最著名的艾狄胥問題之一」,提醒同行「讀下去之前先坐好」。

{{< x-post wtgowers 2057175729008153069 >}}

九位數學家的聯合評論提供了多個角度的深入分析。阿魯爾.尚卡(Arul Shankar)表示會「毫不猶豫地推薦這篇論文在任何期刊發表」,稱讚它是「一個非常漂亮的想法的乾淨執行」。丹尼爾.利特(Daniel Litt)則坦言,他在幾小時內就理解了整個證明。如果解法是「自然的」,為什麼 80 年沒有人想到?利特把原因歸咎於學術界的專業化:組合幾何的人不碰代數數論的工具,代數數論的人不關注組合幾何的老問題。AI 沒有這種學科壁壘。

高爾斯提出了一個精妙的概念框架來理解 AI 的表現:「柯爾莫哥洛夫複雜度模除專家知識」。意思是:AI 的厲害之處不在於創造新理論,而在於以新穎的方式組合已知工具。如果把學術界已經充分理解的方法視為「免費」,AI 需要的「新想法」其實不多。它的核心優勢是百科全書式的跨領域知識,加上願意嘗試看似不可能的組合方式。湯瑪斯.布魯姆(Thomas Bloom)的分析呼應了這個觀點:要解決這個問題,需要同時具備推翻猜想的勇氣、跳出高斯整數的想像力、以及對類域塔的技術掌握。布魯姆觀察到:「AI 滿足了所有這些條件。」

但數學家們也提出了嚴肅的警告。梅蘭妮.伍德(Melanie Matchett Wood)指出:「AI 說服人類它有一個正確的證明,比實際找到正確的論證要容易得多。」這次有九位頂級學者逐行驗證,但這種配置不可能每次都有。維克多.王(Victor Wang)追問了一個更根本的問題:「當我們把研究免費放上 arXiv,是否隱含地同意了讓 AI 自由取用?」學術知識的產權、AI 生成結果的引用標準、以及驗證負擔的急劇增加,這些問題在這次事件之前都是抽象的假設,現在變成了迫切的現實。


這只是開始

薩溫(Will Sawin)在審閱 AI 證明的同時,獨立寫出一篇後續論文,把指數 δ 從原始證明中隱含的極小值大幅提升到大約 0.014。這意味著他在不到一天的時間內就將結果強化了許多個量級。這個速度本身就揭示了 AI 發現的核心價值:它打開了一扇門,而一旦門打開,人類數學家可以迅速衝進去拓寬空間。目前下界(n 的 1.014 次方)和上界(n 的 4/3 次方,約 1.333 次方)之間仍有巨大差距,這個差距就是未來數十年研究的沃土。

知名組合數學家吉爾.卡萊(Gil Kalai)在他的部落格上把這個事件比作 1976 年的四色定理電腦輔助證明,稱之為「重要性超越組合數學、甚至超越數學本身的科學里程碑」。50 年前,電腦證明四色定理引發了「這算不算真正的證明」的哲學爭論。50 年後,AI 推翻艾狄胥猜想,提出的問題更根本也更實際。在 Hacker News 上,反應兩極。有數學博士後表示結果「新穎且令人興奮」,AI 的修改是「實質性的」。也有人擔憂:如果 AI 產出的結果越來越複雜,人類終將無法驗證,數學就會變成一門「我們相信但無法理解」的學科。

從更宏觀的視角來看,這件事揭示了 AI 在基礎研究中一個獨特且可能是決定性的優勢:跨領域連結。利特指出了學術界的「專業化和筒倉化」問題,而 AI 恰恰不受這個限制。如果這種跨領域組合能力是 AI 在基礎研究中的核心優勢,那麼最有可能被 AI 率先攻克的問題,不一定是最「難」的,而是那些卡在兩個學科交界處、需要兩邊都懂才能解的問題。這不只是數學的故事。物理學、生物學、材料科學,每一個領域都有大量這樣的跨界問題在等待。艾狄胥猜想的倒下,或許只是 AI 拆除學科壁壘的第一塊磚。而那筆 80 年前懸賞的 500 美元,現在數學界得認真想想該付給誰了。