三週連發兩篇量子重力論文:OpenAI 科學計畫的第一場秀
OpenAI 科學計畫首位成員 Alex Lupsasca 和合作者在三週內連續發表兩篇突破性的量子場論論文,且第二篇完全使用公開的 ChatGPT Pro 完成推導。這展示了 AI 加速科學研究的實際能力,但也帶來了學術品質和論文氾濫的新隱憂。

本文整理自 Latent Space Podcast 旗下的 AI for Science 系列,2026 年 5 月播出的單集。
{{< youtube 9d899Ram9Bs >}}
{{< spotify "episode/31rDDzc60G2ZX3sM6FuCP5" >}}
{{< apple-podcast "tw/podcast/doing-vibe-physics-alex-lupsasca-openai/id1674008350?i=1000766317713" >}}
一個月內,兩篇改寫教科書的論文
2026 年 2 月 12 日,一篇標題為「Single-minus gluon tree amplitudes are nonzero」(單負膠子樹振幅不為零)的論文出現在 arXiv 上。三週後的 3 月 4 日,標題幾乎一模一樣的第二篇「Single-minus graviton tree amplitudes are nonzero」跟著上架。兩篇論文的作者名單完全相同:普林斯頓高等研究院的 Alfredo Guevara、范德堡大學的 Alex Lupsasca、劍橋的 David Skinner、哈佛的 Andrew Strominger,以及 OpenAI 的 Kevin Weil。
這兩篇論文推翻了量子場論教科書中數十年來的標準結論。它們證明了,在特定的「共線」條件下,原本被認為不可能發生的粒子反應其實可以發生,而且背後有一個極為優美的數學結構。第一篇耗時數月、動用了 OpenAI 內部的實驗性模型,第二篇只花了三天就拿到核心結果,而且完全使用公開的 ChatGPT 5.2 Pro 完成。
這不只是兩篇物理論文的故事。這是 OpenAI 去年啟動的「科學計畫」(OpenAI for Science)交出的第一份成績單。
OpenAI 的科學豪賭
2025 年 10 月,Axios 獨家報導范德堡大學理論物理學家 Alex Lupsasca 加入 OpenAI,成為「OpenAI for Science」計畫的第一位成員。Lupsasca 的背景在 AI 圈不太典型:他是研究旋轉黑洞和天球全像術的理論物理學家,2024 年突破獎新視野物理學獎得主,博士導師是哈佛的弦論大師 Andrew Strominger。他加入 OpenAI 的動機很簡單:GPT-5 在 30 分鐘內重現了他最好的研究成果。
「這是我一生中見過最重要的發現,」他在 Podcast 中毫不掩飾地說,「它會改變我們做研究的一切。」這個判斷驅動他在學術休假期間加入 OpenAI,一邊保留范德堡的教職,一邊參與模型物理能力的開發。
OpenAI 的科學計畫由首席產品長 Kevin Weil 主導。Weil 也是兩篇論文的共同作者。這件事本身就說明了 OpenAI 對科學應用的重視程度:公司的產品主管親自參與前沿物理研究。Lupsasca 在 OpenAI 的工作有兩個面向。一個是利用現有模型去解決真實的研究問題,另一個是從這些嘗試中學習如何改進模型的科學推理能力。兩篇論文就是第一個面向的成果。
能力曲線:從 O3 到 GPT-5.4
Lupsasca 描述了一條讓他自己都覺得超現實的能力遞進曲線。一年多前,他認為 AI 寫寫信件還行,但做不了嚴肅的理論物理計算。然後事情開始加速。
O3 是第一個分水嶺。2025 年初發布的這個推理模型,能夠處理實際的數學計算。Lupsasca 試了一下,發現它能在 11 分鐘內完成他本人需要好幾天的推導。他開始認真使用,但還是把它當成「很好的工具」。
GPT-5 是第二個分水嶺。2025 年八月發布後,Lupsasca 把自己剛發表的一篇論文中的核心問題交給它。那篇論文關於旋轉黑洞為何沒有「Love number」(潮汐響應係數),他認為全世界能獨立推導出來的人大概只有十位。GPT-5 的訓練資料截止在論文之前,所以它從未見過答案。結果模型在 18 分鐘內給出了完全正確的解答。
GPT-5.2 是第三個分水嶺。它的 Pro 版本(長時間深度推理模式)成功猜出了困擾專家一年的膠子振幅公式。雖然它無法自己證明,但 OpenAI 的內部模型花了 12 小時從零開始推導出相同公式和完整證明。
到了膠子論文發表時的 5.4 版本,Lupsasca 說能力又是一次明顯的躍升。「外面的人看 GPT 更新,覺得寫信件沒什麼差別,」他說,「但在科學前沿,每一代的能力差距是巨大的。」
公開的對話紀錄:Vibe Physics 是怎麼做的
重力子論文的發表附帶了一個在學術界非常罕見的東西:團隊把用來推導結果的 ChatGPT 對話紀錄完整公開在 OpenAI 部落格上。這份紀錄長達 110 頁。
操作方式出奇地簡單。他們把膠子論文上傳給 ChatGPT 5.2 Pro,要求它理解整篇論文的推導邏輯和附錄中的技術細節。模型回覆確認它理解了。然後他們給了兩段簡短的指示,說明從膠子推廣到重力子需要做的兩個關鍵修改,接著就讓模型自己去做。
模型每隔大約 30 分鐘回來報告一次。它會說「到目前為止我完成了這些步驟」,然後列出剩餘的工作項目,提議下一步做什麼。人類回覆「好,繼續」。在推導過程中,模型引用了「有向矩陣樹定理」,這個應用讓論文的資深合作者都感到意外。
最後模型甚至自己寫出了一份接近最終版本的論文草稿。Lupsasca 說從第三節開始,AI 寫的和最終發表的版本「非常接近」。主要的人類貢獻是 Strominger 撰寫的引言和摘要(提供了更宏觀的物理脈絡),以及一個關於對稱性分析的新章節(來自另一段獨立的 AI 對話)。
草率科學:加速的另一面
但 Lupsasca 也沒有迴避加速帶來的陰暗面。他直言,學術社群正面臨一個嚴重的新問題:AI 驅動的草率科學。
邏輯很清楚。如果一位專業物理學家可以用 AI 每天產出一篇論文級別的結果,那麼不那麼專業的人也會嘗試這樣做。差別在於,專業物理學家知道要問什麼問題、知道怎麼驗證結果。不具備這些判斷力的人可能把 AI 帶往錯誤的方向,然後直接把未經充分驗證的結果投到 arXiv 上。
「arXiv 已經被投稿淹沒了,」他說。這不是假設性的未來風險,而是正在發生的事情。他收到其他物理學家的信件,告訴他他們用 AI 做了很長的計算,但中間某處有錯誤,結果不對。當計算變得越來越複雜和冗長,即使是模型自己也可能在某一步用了「猜測」而不是嚴格推導。如果人類不夠仔細,錯誤就會被發表。
Lupsasca 的回應不是放慢速度,而是提高標準。他認為正確的做法是把 AI 當作超級工具,用它去挑戰真正困難的問題,而不是批量生產一般難度的論文。「我們可以花一整年再寫 30 篇跟這兩篇類似的論文,但我不認為那是我們該做的事,」他說。
提高標準,而不是增加數量
這個觀點很值得關注。OpenAI 的科學計畫目前展示的不只是「AI 能做科學」,更重要的是一種態度:能力的提升應該用來追求更高的目標,而不是更多的產出。
Lupsasca 說他們有一條清晰的研究路線,要通過一系列遞進的問題去攻克量子重力中的核心難題。膠子和重力子論文是這條路的起點。每一步都會更難,但如果 AI 的能力持續以目前的速度進步,他相信這些問題都可以被攻克。
他心目中的真正里程碑,還沒有到來。「我們看到 AI 解決了困擾三四位專家一年的問題,但我們還沒看到它解決困擾整個物理學社群幾十年的問題。」按照 O3 到 GPT-5 到 5.2 到 5.4 的能力遞進速度,他認為那一天「可能不會太遠」。
同時,他也在推動模型能力的改進。他認為目前模型最需要提升的兩個方向是:第一,創造性跳躍的能力。目前的大語言模型被訓練來給出「中間值」的答案,因為大多數任務你不希望它太離經叛道。但科學研究有時恰恰需要「從左場飛來的想法」,需要模型能從分布的尾端採樣,而不是總給你最安全的答案。
第二個方向是信心校準。讓模型在推導的每一步標明「這裡我很有把握」和「這裡我在猜」,這樣人類審查者就能集中精力檢查不確定的環節,而不是逐行審查 110 頁的推導。
OpenAI 的科學計畫才剛起步。兩篇論文展示了可能性,但更有意思的是接下來會發生什麼。如果量子場論的問題可以用公開模型在幾天內解決,那凝態物理、生物物理、宇宙學的前沿問題呢?Lupsasca 透露他現在每週都收到其他領域物理學家的來信,分享他們用 AI 做到的事情。最近一封信說,Codex 在 10 分鐘內完成了一個 SYK 模型的模擬,這是量子力學和重力研究的技術難題,好幾個研究團隊嘗試過但沒能做到。
科學研究的速度正在被重新定義。問題是,我們的驗證體系、訓練體系和出版體系,能不能跟上。