AI 產業動態

三週連發兩篇量子重力論文：OpenAI 科學計畫的第一場秀

OpenAI 科學計畫首位成員 Alex Lupsasca 和合作者在三週內連續發表兩篇突破性的量子場論論文，且第二篇完全使用公開的 ChatGPT Pro 完成推導。這展示了 AI 加速科學研究的實際能力，但也帶來了學術品質和論文氾濫的新隱憂。

2026 年 5 月 30 日 · 來源： Latent Space Podcast

本文整理自 Latent Space Podcast 旗下的 AI for Science 系列，2026 年 5 月播出的單集。

{{< apple-podcast "tw/podcast/doing-vibe-physics-alex-lupsasca-openai/id1674008350?i=1000766317713" >}}

一個月內，兩篇改寫教科書的論文

2026 年 2 月 12 日，一篇標題為「Single-minus gluon tree amplitudes are nonzero」（單負膠子樹振幅不為零）的論文出現在 arXiv 上。三週後的 3 月 4 日，標題幾乎一模一樣的第二篇「Single-minus graviton tree amplitudes are nonzero」跟著上架。兩篇論文的作者名單完全相同：普林斯頓高等研究院的 Alfredo Guevara、范德堡大學的 Alex Lupsasca、劍橋的 David Skinner、哈佛的 Andrew Strominger，以及 OpenAI 的 Kevin Weil。

這兩篇論文推翻了量子場論教科書中數十年來的標準結論。它們證明了，在特定的「共線」條件下，原本被認為不可能發生的粒子反應其實可以發生，而且背後有一個極為優美的數學結構。第一篇耗時數月、動用了 OpenAI 內部的實驗性模型，第二篇只花了三天就拿到核心結果，而且完全使用公開的 ChatGPT 5.2 Pro 完成。

這不只是兩篇物理論文的故事。這是 OpenAI 去年啟動的「科學計畫」（OpenAI for Science）交出的第一份成績單。

OpenAI 的科學豪賭

2025 年 10 月，Axios 獨家報導范德堡大學理論物理學家 Alex Lupsasca 加入 OpenAI，成為「OpenAI for Science」計畫的第一位成員。Lupsasca 的背景在 AI 圈不太典型：他是研究旋轉黑洞和天球全像術的理論物理學家，2024 年突破獎新視野物理學獎得主，博士導師是哈佛的弦論大師 Andrew Strominger。他加入 OpenAI 的動機很簡單：GPT-5 在 30 分鐘內重現了他最好的研究成果。

「這是我一生中見過最重要的發現，」他在 Podcast 中毫不掩飾地說，「它會改變我們做研究的一切。」這個判斷驅動他在學術休假期間加入 OpenAI，一邊保留范德堡的教職，一邊參與模型物理能力的開發。

OpenAI 的科學計畫由首席產品長 Kevin Weil 主導。Weil 也是兩篇論文的共同作者。這件事本身就說明了 OpenAI 對科學應用的重視程度：公司的產品主管親自參與前沿物理研究。Lupsasca 在 OpenAI 的工作有兩個面向。一個是利用現有模型去解決真實的研究問題，另一個是從這些嘗試中學習如何改進模型的科學推理能力。兩篇論文就是第一個面向的成果。

能力曲線：從 O3 到 GPT-5.4

Lupsasca 描述了一條讓他自己都覺得超現實的能力遞進曲線。一年多前，他認為 AI 寫寫信件還行，但做不了嚴肅的理論物理計算。然後事情開始加速。

O3 是第一個分水嶺。2025 年初發布的這個推理模型，能夠處理實際的數學計算。Lupsasca 試了一下，發現它能在 11 分鐘內完成他本人需要好幾天的推導。他開始認真使用，但還是把它當成「很好的工具」。

GPT-5 是第二個分水嶺。2025 年八月發布後，Lupsasca 把自己剛發表的一篇論文中的核心問題交給它。那篇論文關於旋轉黑洞為何沒有「Love number」（潮汐響應係數），他認為全世界能獨立推導出來的人大概只有十位。GPT-5 的訓練資料截止在論文之前，所以它從未見過答案。結果模型在 18 分鐘內給出了完全正確的解答。

GPT-5.2 是第三個分水嶺。它的 Pro 版本（長時間深度推理模式）成功猜出了困擾專家一年的膠子振幅公式。雖然它無法自己證明，但 OpenAI 的內部模型花了 12 小時從零開始推導出相同公式和完整證明。

到了膠子論文發表時的 5.4 版本，Lupsasca 說能力又是一次明顯的躍升。「外面的人看 GPT 更新，覺得寫信件沒什麼差別，」他說，「但在科學前沿，每一代的能力差距是巨大的。」

公開的對話紀錄：Vibe Physics 是怎麼做的

重力子論文的發表附帶了一個在學術界非常罕見的東西：團隊把用來推導結果的 ChatGPT 對話紀錄完整公開在 OpenAI 部落格上。這份紀錄長達 110 頁。

操作方式出奇地簡單。他們把膠子論文上傳給 ChatGPT 5.2 Pro，要求它理解整篇論文的推導邏輯和附錄中的技術細節。模型回覆確認它理解了。然後他們給了兩段簡短的指示，說明從膠子推廣到重力子需要做的兩個關鍵修改，接著就讓模型自己去做。

模型每隔大約 30 分鐘回來報告一次。它會說「到目前為止我完成了這些步驟」，然後列出剩餘的工作項目，提議下一步做什麼。人類回覆「好，繼續」。在推導過程中，模型引用了「有向矩陣樹定理」，這個應用讓論文的資深合作者都感到意外。

最後模型甚至自己寫出了一份接近最終版本的論文草稿。Lupsasca 說從第三節開始，AI 寫的和最終發表的版本「非常接近」。主要的人類貢獻是 Strominger 撰寫的引言和摘要（提供了更宏觀的物理脈絡），以及一個關於對稱性分析的新章節（來自另一段獨立的 AI 對話）。

草率科學：加速的另一面

但 Lupsasca 也沒有迴避加速帶來的陰暗面。他直言，學術社群正面臨一個嚴重的新問題：AI 驅動的草率科學。

邏輯很清楚。如果一位專業物理學家可以用 AI 每天產出一篇論文級別的結果，那麼不那麼專業的人也會嘗試這樣做。差別在於，專業物理學家知道要問什麼問題、知道怎麼驗證結果。不具備這些判斷力的人可能把 AI 帶往錯誤的方向，然後直接把未經充分驗證的結果投到 arXiv 上。

「arXiv 已經被投稿淹沒了，」他說。這不是假設性的未來風險，而是正在發生的事情。他收到其他物理學家的信件，告訴他他們用 AI 做了很長的計算，但中間某處有錯誤，結果不對。當計算變得越來越複雜和冗長，即使是模型自己也可能在某一步用了「猜測」而不是嚴格推導。如果人類不夠仔細，錯誤就會被發表。

Lupsasca 的回應不是放慢速度，而是提高標準。他認為正確的做法是把 AI 當作超級工具，用它去挑戰真正困難的問題，而不是批量生產一般難度的論文。「我們可以花一整年再寫 30 篇跟這兩篇類似的論文，但我不認為那是我們該做的事，」他說。

提高標準，而不是增加數量

這個觀點很值得關注。OpenAI 的科學計畫目前展示的不只是「AI 能做科學」，更重要的是一種態度：能力的提升應該用來追求更高的目標，而不是更多的產出。

Lupsasca 說他們有一條清晰的研究路線，要通過一系列遞進的問題去攻克量子重力中的核心難題。膠子和重力子論文是這條路的起點。每一步都會更難，但如果 AI 的能力持續以目前的速度進步，他相信這些問題都可以被攻克。

他心目中的真正里程碑，還沒有到來。「我們看到 AI 解決了困擾三四位專家一年的問題，但我們還沒看到它解決困擾整個物理學社群幾十年的問題。」按照 O3 到 GPT-5 到 5.2 到 5.4 的能力遞進速度，他認為那一天「可能不會太遠」。

同時，他也在推動模型能力的改進。他認為目前模型最需要提升的兩個方向是：第一，創造性跳躍的能力。目前的大語言模型被訓練來給出「中間值」的答案，因為大多數任務你不希望它太離經叛道。但科學研究有時恰恰需要「從左場飛來的想法」，需要模型能從分布的尾端採樣，而不是總給你最安全的答案。

第二個方向是信心校準。讓模型在推導的每一步標明「這裡我很有把握」和「這裡我在猜」，這樣人類審查者就能集中精力檢查不確定的環節，而不是逐行審查 110 頁的推導。

OpenAI 的科學計畫才剛起步。兩篇論文展示了可能性，但更有意思的是接下來會發生什麼。如果量子場論的問題可以用公開模型在幾天內解決，那凝態物理、生物物理、宇宙學的前沿問題呢？Lupsasca 透露他現在每週都收到其他領域物理學家的來信，分享他們用 AI 做到的事情。最近一封信說，Codex 在 10 分鐘內完成了一個 SYK 模型的模擬，這是量子力學和重力研究的技術難題，好幾個研究團隊嘗試過但沒能做到。

科學研究的速度正在被重新定義。問題是，我們的驗證體系、訓練體系和出版體系，能不能跟上。