費爾茲獎得主陶哲軒:AI 讓點子不值錢了,驗證才是真正的瓶頸
數學家陶哲軒在 Dwarkesh Podcast 深談 AI 對數學研究的影響。他用克卜勒發現行星軌道的故事說明:產生假說從來不是科學的瓶頸,驗證才是。AI 把點子的成本降到接近零,但成功率只有 1-2%,真正的智慧在於累積式的深度推進。

本文整理自《Dwarkesh Podcast》2026 年 3 月播出的單集。
{{< youtube Q8Fkpi18QXU >}}
{{< spotify "episode/24xF8YGra2w3HXZYbhgVKU" >}}
{{< apple-podcast "tw/podcast/terence-tao-kepler-newton-and-the-true/id1516093381?i=1000756353875" >}}

克卜勒其實是一台高溫 LLM
如果要用一個歷史人物來比喻今天的 AI,陶哲軒(Terence Tao)選了一個出人意料的名字:克卜勒(Johannes Kepler)。
這位 UCLA 數學教授、2006 年費爾茲獎得主,在 Dwarkesh Podcast 的最新訪談中,花了十幾分鐘講述克卜勒如何發現行星軌道是橢圓形的。這個我們在高中物理課上用一句話帶過的結論,實際上花了克卜勒二十年。
在那二十年裡,他嘗試過用柏拉圖正多面體去套行星軌道的間距,試過用音樂和聲的比例去解釋行星的速度,甚至把占星術也拉進來。這些理論今天看來荒謬,但克卜勒真心相信每一個,而且花了大量時間去計算、去比對。
Dwarkesh Patel(知名科技 Podcast 主持人)聽完後給了一個精準的比喻:克卜勒就像一台「高溫 LLM」,不斷產生各種天馬行空的假說,然後拿第谷.布拉赫(Tycho Brahe)的高精度觀測資料去驗證。二十年下來,絕大多數假說都被資料否決了,只有一個存活下來,就是行星的橢圓軌道。
這個故事的重點不在克卜勒的天才,而在第谷的資料。沒有那套精確到前所未有的觀測資料,克卜勒的柏拉圖正多面體理論看起來跟橢圓軌道一樣合理,因為舊資料的誤差範圍太大,分不出哪個是對的。陶哲軒強調,點子的產生從來不是科學的瓶頸,驗證才是。而這個道理放到 AI 時代,變得更加明顯。
點子的成本降到零之後
AI 做到了一件克卜勒做不到的事:把產生假說的成本降到接近零。陶哲軒把這個變化跟網際網路降低通訊成本做類比。在網際網路之前,傳遞訊息很貴,所以人們會謹慎選擇要溝通什麼。網際網路讓溝通成本歸零之後,垃圾郵件就出現了。同樣的道理,當 AI 能在幾秒鐘內產生一個看似合理的數學猜想或科學假說時,學術期刊和同儕審查系統馬上就被 AI 產生的投稿淹沒了。
但成本降低不代表品質提升。陶哲軒觀察到一個很關鍵的數字:AI 對數學問題的成功率大約在 1% 到 2%。這個數字來自他親身參與的厄多斯問題(Erdős problems)計畫。厄多斯是二十世紀最多產的數學家之一,他一生留下了約 1,100 個未解問題。當 AI 工具被拿來攻擊這些問題時,大約解決了 50 個,而且幾乎都集中在一開始的爆發期。之後進展就停滯了,至少有三組人各自用最前沿的 AI 同時嘗試攻擊剩餘的問題,結果都只得到一些零星的觀察,沒有實質突破。
問題出在哪裡?那些被 AI 解決的 50 個問題有一個共同特徵:它們之所以長期未解,不是因為太難,而是因為沒有人認真去試。解法通常是把某個冷門領域的已知技巧應用到這個問題上,而人類數學家因為跨領域的知識壁壘,從來沒想到可以這樣組合。AI 的優勢就在這裡:它能同時「知道」所有領域的標準技巧,然後暴力搜索哪個組合可能有效。但一旦問題真的需要新的數學概念,而不只是重新組合已知技巧,AI 就束手無策了。
人工聰明,不是人工智慧
陶哲軒用了一個很有畫面感的比喻來解釋 AI 目前的局限。他把 AI 比作一群能跳兩公尺高的機器人。如果牆只有兩公尺,它們跳一次就過了。但如果牆有十公尺呢?這些機器人會一直跳、一直跳、一直跳,每次都摔下來,然後再跳。它們做不到的是:先跳到兩公尺的位置,抓住一個把手,站穩,然後從那裡再往上跳。
這就是他所說的「累積式進展」(cumulative progress)。當他和人類同事合作解一個難題時,過程是這樣的:兩個人都不知道答案,但其中一個人有個模糊的想法,他們試了,失敗了,但從失敗中學到了某些東西,於是修改策略,再試。經過來回討論,他們逐漸把「什麼不可行」的地圖畫出來,找到一條可能的路徑。每一次失敗都會被消化成下一次嘗試的養分。
AI 目前做不到這件事。你開一個新的對話,它不記得上一次嘗試了什麼。就算它在某次嘗試中走到了一個有希望的方向,這個部分進展也不會被保留下來,不會成為下一次嘗試的起點。這就是陶哲軒區分「人工聰明」(artificial cleverness)和「人工智慧」(artificial intelligence)的核心:聰明是能解出個別問題,智慧是能從過程中學習並累積。
成功率 1%,但聽起來像 100%
陶哲軒特別提醒了一個認知陷阱。如果你只看社群媒體上的報導,AI 在數學領域的進展看起來驚人。某個 AI 解決了一個懸了幾十年的猜想,媒體大幅報導,研究者興奮地分享。但這是典型的選擇偏誤。
真實情況是:同一個 AI 被拿去嘗試一百個問題,只解決了一、兩個。那九十八個失敗的嘗試不會被報導、不會被分享、不會出現在你的時間線上。AI 公司也傾向於只發布成功案例,不公開負面結果。這讓外界對 AI 能力的認知產生了系統性的偏差。
陶哲軒認為,建立標準化的基準測試資料集,已經變成當務之急。不能只靠 AI 公司自己選擇要公布什麼,而是要有獨立的、預先定義好的挑戰題目集,讓所有人都能客觀比較不同 AI 工具在同一組問題上的表現。這跟產業界要求 AI 公司公開模型評估結果的呼聲是一致的,只是數學領域有一個天然優勢:數學證明的正確性是可以被機器驗證的,沒有模糊空間。
AI 讓論文更豐富,但沒讓論文更深入
那陶哲軒自己用 AI 嗎?用,而且用得很積極。但他對自己生產力的評估,比多數人想像的要誠實得多。
2023 年,他曾預測 AI 到 2026 年會成為數學家的「可信共同作者」。現在是 2026 年了,他說自己對這個預測「滿意」。但他接著解釋了「可信共同作者」實際上意味著什麼。AI 幫他做的事情包括:文獻搜索、產生程式碼、畫圖表、重新格式化 LaTeX 文件中括號的大小。這些是「輔助性任務」,以前他也會做,只是做得少,因為太花時間。現在有了 AI,他的論文裡多了更多圖、更多數值計算、更多程式碼。論文變得「更豐富、更寬廣」了。
但他馬上補了一句關鍵的話:如果他今天要重寫一篇 2020 年風格的論文,不加那些額外的圖表和程式碼,只做跟當年相同水準的核心工作,AI 其實「省不了多少時間」。解數學問題最困難的那個核心步驟,他還是用紙和筆。AI 沒有加速這個部分。
這個區分很重要。很多人說 AI 讓生產力提升了兩倍、五倍,但陶哲軒提醒我們去問一個更根本的問題:提升的是什麼部分?如果是周邊任務變快了,那確實是進步。但如果核心創造力的部分沒有改變,那所謂的「五倍生產力」其實是在衡量一個不同的東西。
我的觀察:多數人高估了 AI 解題,低估了 AI 找題
陶哲軒在訪談中提到一個概念,他稱之為「演繹過剩」(deductive overhang)。意思是:在很多領域裡,現有的資料中隱藏著大量尚未被提取的資訊,只是沒有人用對方法去分析。他舉了一個例子:有研究者想知道科學家引用論文時到底有沒有真的讀過,他們追蹤引用中的錯字如何從一篇論文傳播到另一篇。如果 A 論文的引用格式有個錯字,B 論文也出現了同樣的錯字,就代表 B 是從 A 抄來的,沒有回去讀原始論文。這種分析方法不需要任何新資料,只需要對已有資料的重新組合。
我覺得這才是 AI 在科學領域最被低估的能力。多數人把注意力放在「AI 能不能解出黎曼猜想」這種終極問題上,但陶哲軒本人反而認為,AI 最大的價值可能是在已知資料中發現人類忽略的模式。這跟量化避險基金偏好雇用天文學博士的原因一樣:天文學家因為資料收集成本極高,被迫發展出從有限資料中榨取最大資訊量的技能。AI 有潛力把這種技能民主化,讓每個領域的研究者都能對自己的既有資料做更深入的探勘。
這對臺灣的研究社群來說是一個值得思考的方向。我們不一定要追逐最前沿的 AI 模型開發,但可以問自己:在我們手上的資料裡,有沒有什麼「演繹過剩」還沒被挖出來?