AI 技術前沿

費爾茲獎得主陶哲軒：AI 讓點子不值錢了，驗證才是真正的瓶頸

數學家陶哲軒在 Dwarkesh Podcast 深談 AI 對數學研究的影響。他用克卜勒發現行星軌道的故事說明：產生假說從來不是科學的瓶頸，驗證才是。AI 把點子的成本降到接近零，但成功率只有 1-2%，真正的智慧在於累積式的深度推進。

2026 年 3 月 23 日 · 來源： Dwarkesh Podcast

$費爾茲獎得主陶哲軒：AI 讓點子不值錢了，驗證才是真正的瓶頸$

本文整理自《Dwarkesh Podcast》2026 年 3 月播出的單集。

{{< apple-podcast "tw/podcast/terence-tao-kepler-newton-and-the-true/id1516093381?i=1000756353875" >}}

$封面圖$

克卜勒其實是一台高溫 LLM

如果要用一個歷史人物來比喻今天的 AI，陶哲軒（Terence Tao）選了一個出人意料的名字：克卜勒（Johannes Kepler）。

這位 UCLA 數學教授、2006 年費爾茲獎得主，在 Dwarkesh Podcast 的最新訪談中，花了十幾分鐘講述克卜勒如何發現行星軌道是橢圓形的。這個我們在高中物理課上用一句話帶過的結論，實際上花了克卜勒二十年。

在那二十年裡，他嘗試過用柏拉圖正多面體去套行星軌道的間距，試過用音樂和聲的比例去解釋行星的速度，甚至把占星術也拉進來。這些理論今天看來荒謬，但克卜勒真心相信每一個，而且花了大量時間去計算、去比對。

Dwarkesh Patel（知名科技 Podcast 主持人）聽完後給了一個精準的比喻：克卜勒就像一台「高溫 LLM」，不斷產生各種天馬行空的假說，然後拿第谷．布拉赫（Tycho Brahe）的高精度觀測資料去驗證。二十年下來，絕大多數假說都被資料否決了，只有一個存活下來，就是行星的橢圓軌道。

這個故事的重點不在克卜勒的天才，而在第谷的資料。沒有那套精確到前所未有的觀測資料，克卜勒的柏拉圖正多面體理論看起來跟橢圓軌道一樣合理，因為舊資料的誤差範圍太大，分不出哪個是對的。陶哲軒強調，點子的產生從來不是科學的瓶頸，驗證才是。而這個道理放到 AI 時代，變得更加明顯。

點子的成本降到零之後

AI 做到了一件克卜勒做不到的事：把產生假說的成本降到接近零。陶哲軒把這個變化跟網際網路降低通訊成本做類比。在網際網路之前，傳遞訊息很貴，所以人們會謹慎選擇要溝通什麼。網際網路讓溝通成本歸零之後，垃圾郵件就出現了。同樣的道理，當 AI 能在幾秒鐘內產生一個看似合理的數學猜想或科學假說時，學術期刊和同儕審查系統馬上就被 AI 產生的投稿淹沒了。

但成本降低不代表品質提升。陶哲軒觀察到一個很關鍵的數字：AI 對數學問題的成功率大約在 1% 到 2%。這個數字來自他親身參與的厄多斯問題（Erdős problems）計畫。厄多斯是二十世紀最多產的數學家之一，他一生留下了約 1,100 個未解問題。當 AI 工具被拿來攻擊這些問題時，大約解決了 50 個，而且幾乎都集中在一開始的爆發期。之後進展就停滯了，至少有三組人各自用最前沿的 AI 同時嘗試攻擊剩餘的問題，結果都只得到一些零星的觀察，沒有實質突破。

問題出在哪裡？那些被 AI 解決的 50 個問題有一個共同特徵：它們之所以長期未解，不是因為太難，而是因為沒有人認真去試。解法通常是把某個冷門領域的已知技巧應用到這個問題上，而人類數學家因為跨領域的知識壁壘，從來沒想到可以這樣組合。AI 的優勢就在這裡：它能同時「知道」所有領域的標準技巧，然後暴力搜索哪個組合可能有效。但一旦問題真的需要新的數學概念，而不只是重新組合已知技巧，AI 就束手無策了。

人工聰明，不是人工智慧

陶哲軒用了一個很有畫面感的比喻來解釋 AI 目前的局限。他把 AI 比作一群能跳兩公尺高的機器人。如果牆只有兩公尺，它們跳一次就過了。但如果牆有十公尺呢？這些機器人會一直跳、一直跳、一直跳，每次都摔下來，然後再跳。它們做不到的是：先跳到兩公尺的位置，抓住一個把手，站穩，然後從那裡再往上跳。

這就是他所說的「累積式進展」（cumulative progress）。當他和人類同事合作解一個難題時，過程是這樣的：兩個人都不知道答案，但其中一個人有個模糊的想法，他們試了，失敗了，但從失敗中學到了某些東西，於是修改策略，再試。經過來回討論，他們逐漸把「什麼不可行」的地圖畫出來，找到一條可能的路徑。每一次失敗都會被消化成下一次嘗試的養分。

AI 目前做不到這件事。你開一個新的對話，它不記得上一次嘗試了什麼。就算它在某次嘗試中走到了一個有希望的方向，這個部分進展也不會被保留下來，不會成為下一次嘗試的起點。這就是陶哲軒區分「人工聰明」（artificial cleverness）和「人工智慧」（artificial intelligence）的核心：聰明是能解出個別問題，智慧是能從過程中學習並累積。

成功率 1%，但聽起來像 100%

陶哲軒特別提醒了一個認知陷阱。如果你只看社群媒體上的報導，AI 在數學領域的進展看起來驚人。某個 AI 解決了一個懸了幾十年的猜想，媒體大幅報導，研究者興奮地分享。但這是典型的選擇偏誤。

真實情況是：同一個 AI 被拿去嘗試一百個問題，只解決了一、兩個。那九十八個失敗的嘗試不會被報導、不會被分享、不會出現在你的時間線上。AI 公司也傾向於只發布成功案例，不公開負面結果。這讓外界對 AI 能力的認知產生了系統性的偏差。

陶哲軒認為，建立標準化的基準測試資料集，已經變成當務之急。不能只靠 AI 公司自己選擇要公布什麼，而是要有獨立的、預先定義好的挑戰題目集，讓所有人都能客觀比較不同 AI 工具在同一組問題上的表現。這跟產業界要求 AI 公司公開模型評估結果的呼聲是一致的，只是數學領域有一個天然優勢：數學證明的正確性是可以被機器驗證的，沒有模糊空間。

AI 讓論文更豐富，但沒讓論文更深入

那陶哲軒自己用 AI 嗎？用，而且用得很積極。但他對自己生產力的評估，比多數人想像的要誠實得多。

2023 年，他曾預測 AI 到 2026 年會成為數學家的「可信共同作者」。現在是 2026 年了，他說自己對這個預測「滿意」。但他接著解釋了「可信共同作者」實際上意味著什麼。AI 幫他做的事情包括：文獻搜索、產生程式碼、畫圖表、重新格式化 LaTeX 文件中括號的大小。這些是「輔助性任務」，以前他也會做，只是做得少，因為太花時間。現在有了 AI，他的論文裡多了更多圖、更多數值計算、更多程式碼。論文變得「更豐富、更寬廣」了。

但他馬上補了一句關鍵的話：如果他今天要重寫一篇 2020 年風格的論文，不加那些額外的圖表和程式碼，只做跟當年相同水準的核心工作，AI 其實「省不了多少時間」。解數學問題最困難的那個核心步驟，他還是用紙和筆。AI 沒有加速這個部分。

這個區分很重要。很多人說 AI 讓生產力提升了兩倍、五倍，但陶哲軒提醒我們去問一個更根本的問題：提升的是什麼部分？如果是周邊任務變快了，那確實是進步。但如果核心創造力的部分沒有改變，那所謂的「五倍生產力」其實是在衡量一個不同的東西。

我的觀察：多數人高估了 AI 解題，低估了 AI 找題

陶哲軒在訪談中提到一個概念，他稱之為「演繹過剩」（deductive overhang）。意思是：在很多領域裡，現有的資料中隱藏著大量尚未被提取的資訊，只是沒有人用對方法去分析。他舉了一個例子：有研究者想知道科學家引用論文時到底有沒有真的讀過，他們追蹤引用中的錯字如何從一篇論文傳播到另一篇。如果 A 論文的引用格式有個錯字，B 論文也出現了同樣的錯字，就代表 B 是從 A 抄來的，沒有回去讀原始論文。這種分析方法不需要任何新資料，只需要對已有資料的重新組合。

我覺得這才是 AI 在科學領域最被低估的能力。多數人把注意力放在「AI 能不能解出黎曼猜想」這種終極問題上，但陶哲軒本人反而認為，AI 最大的價值可能是在已知資料中發現人類忽略的模式。這跟量化避險基金偏好雇用天文學博士的原因一樣：天文學家因為資料收集成本極高，被迫發展出從有限資料中榨取最大資訊量的技能。AI 有潛力把這種技能民主化，讓每個領域的研究者都能對自己的既有資料做更深入的探勘。

這對臺灣的研究社群來說是一個值得思考的方向。我們不一定要追逐最前沿的 AI 模型開發，但可以問自己：在我們手上的資料裡，有沒有什麼「演繹過剩」還沒被挖出來？