沒人教它設計抗體,它自己學會了:ESMFold2 的蛋白質世界模型

Biohub 發布的 ESMFold2 蛋白質世界模型,以數十億條蛋白質序列為訓練基礎,折疊了超過 11 億個蛋白質結構。最令人意外的是,這個設計來「理解蛋白質」的通用模型,自行發展出設計治療級單鏈抗體的湧現能力,在 96 孔盤實驗中找到了奈莫耳級結合力。從機械式可解釋性到虛擬細胞願景,ESMFold2 正改寫蛋白質科學的遊戲規則。

沒人教它設計抗體,它自己學會了:ESMFold2 的蛋白質世界模型

本文整理自《No Priors》2026 年 6 月播出的單集。

{{< youtube u8cYwaLzN-k >}}


2026 年 5 月底,祖克柏夫婦的慈善科學機構 Biohub 發布了一個叫 ESMFold2 的蛋白質世界模型。在 No Priors Podcast 的訪談中,Biohub 科學負責人 Alex Rives 興奮地介紹這個系統的能力:它折疊了超過 11 億個蛋白質的三維結構,在速度和精度上達到了帕雷托最優前沿,在蛋白質對蛋白質結合預測和蛋白質對抗體結合預測的基準測試上拿下業界最佳。但真正讓 Rives 最興奮的,不是這些數字,而是一個沒人預期到的結果:這個模型自己學會了設計治療級的抗體。

一個理解蛋白質的世界模型

ESMFold2 的底層架構是一個蛋白質語言模型,叫做 ESMC。如同 GPT 系列被訓練去預測下一個文字 token,ESMC 被訓練去預測蛋白質序列中的下一個胺基酸。訓練資料來自大約 28 億條蛋白質序列,涵蓋了地球上生命之樹的廣泛物種。Rives 在節目中解釋,這種看似簡單的訓練目標,讓模型自行發展出對蛋白質結構和功能的「湧現式理解」。也就是說,沒有人告訴模型蛋白質應該長什麼樣,它從序列資料裡自己「悟」出來了。

在 ESMC 學到的表徵基礎上,ESMFold2 能夠預測蛋白質的原子級三維結構。根據 Nature 的報導,它在預測抗體-抗原複合物的結合姿態上,表現優於 Google DeepMind 的 AlphaFold 3。更重要的是,ESMFold2 完全開源、不限商業用途,這和 AlphaFold 3 初期的限制性授權形成鮮明對比。Rives 把它定位為一個「開放的科學發現引擎」,任何人都可以架起一個運算節點開始設計蛋白質,不再需要耗資百萬的高通量實驗室篩選。

速度是另一個關鍵優勢。傳統的蛋白質結構預測需要搜尋序列資料庫中的演化相關資訊(多重序列比對),這個步驟非常耗時。ESMFold2 直接從蛋白質語言模型的表徵出發,不需要這個步驟,速度快了幾個數量級。這讓大規模掃描成為可能。11 億個蛋白質的結構不是一個一個慢慢折的,而是批次預測出來的,這在幾年前完全不可想像。

抗體設計不是功能,是湧現

ESMFold2 最讓人驚訝的能力,不在於它的結構預測有多準,而在於一個「計畫之外」的發現。

「我們沒有設計一個做抗體的模型,」Rives 在節目中反覆強調這一點,「我們沒有設計一個去結合某個特定標靶的模型。我們只是設計了一個能理解蛋白質的模型,然後蛋白質設計就作為一個湧現屬性(emergent property)出現了。」這句話的意義需要稍微拆解。在傳統藥物開發流程中,設計一個能和疾病標靶結合的抗體,需要高度專門化的工具和方法。你會針對特定標靶去建模型、做篩選、做最佳化,每一步都是量身定做的。ESMFold2 完全不是這個思路,它只被訓練來「理解所有蛋白質」,抗體設計是這種通用理解的副產品。

實驗驗證讓這個發現更有說服力。Rives 描述了一個極簡的流程:團隊用 ESMFold2 在數位空間中搜索了數十萬條蛋白質設計軌跡,從中挑選出 96 個候選分子,合成在一個 96 孔盤(這是實驗室裡最基本的實驗規模)裡進行測試。結果找到了奈莫耳(nanomolar)級結合力的抗體,這是達到治療效力所需的門檻。團隊接著用 Biohub 自有的低溫電子顯微鏡(cryo-EM)確認了結合介面的原子級結構。從數位設計到實驗驗證,整個週期短到令人吃驚。

這個「通用模型長出專門能力」的模式,和大型語言模型的發展軌跡驚人地相似。GPT 系列被訓練來預測下一個 token,結果長出了翻譯、摘要、寫程式等能力。ESMFold2 被訓練來預測蛋白質序列,結果長出了設計抗體的能力。Rives 在訪談中把這稱為「苦澀教訓」(bitter lesson)在蛋白質生物學中的體現:通用性打敗了專門化。

打開蛋白質模型的黑盒子

除了結構預測和蛋白質設計,ESMFold2 還展示了一個更深層的科學價值:用機械式可解釋性(mechanistic interpretability)從模型內部挖掘出全新的生物學知識。

主持人 Sarah Guo 在節目中問了一個尖銳的問題:我們能不能不只是用模型來做預測,而是真正理解模型「認為」生物學是怎麼運作的?Rives 的回答很興奮。他解釋,機械式可解釋性原本是為了理解語言模型而發展出來的技術,核心問題是:模型內部的表徵空間(representation space)長什麼樣?它是怎麼運算的?這些表徵和我們對世界的直覺理解有沒有對應關係?

把這套工具搬到蛋白質語言模型上,出現了一個獨特的機會。因為模型是在數十億條蛋白質序列上訓練的,這些序列涵蓋了人類已知和未知的蛋白質。模型的表徵空間裡,那些我們完全不了解的蛋白質,和那些已經被充分研究的蛋白質之間,透過共享的「結構語法」連結在一起。Rives 把這比喻為「開啟黑盒子」:你可以透過模型已經學到的內部表徵,把未知蛋白質和已知蛋白質關聯起來,從而推斷出前者的功能和作用機制。

Sarah Guo 把這個想法推到極致:如果做得夠好,我們或許能從模型的表徵中發現人體內從未被描述過的生物系統,或者理解某種新療法的作用機制。這不再是「用 AI 加速已知的研究」,而是「用 AI 發現人類從未想到的新知識」。這是一個質的跨越,從工具變成了探索的手段。

從蛋白質到虛擬細胞

ESMFold2 處理的是蛋白質層級的問題。但 Biohub 的野心不止於此。

馬克.祖克柏(Mark Zuckerberg)在訪談中描繪了一個階層式建模(hierarchical modeling)的策略:先建構蛋白質層級的模型,然後用這些模型去理解細胞如何運作,再用細胞模型去理解免疫系統、發炎反應等完整生理系統。「你不能跳過任何一層,」祖克柏解釋,「你沒有辦法在不理解蛋白質的情況下直接去模擬細胞。」每一層的建模方式可能不同,需要的資料種類也不同,但它們必須互相銜接。

普莉希拉.陳(Priscilla Chan)補充了一個重要細節:Biohub 刻意把 AI 研究和濕實驗室實驗當成「同一個計畫」來經營,而不是兩個獨立的團隊。這讓他們可以策略性地蒐集「跨層級的橋接資料」。她舉了幾個例子:帶有空間解析度的轉錄體學資料(可以看到特定 RNA 在細胞內的位置)、透明斑馬魚的全身發育影像(可以追蹤不同細胞的發展軌跡)、以及偵測細胞間通訊分子的感測器。這些資料的共同特點是,它們跨越了傳統生物學的分層界線,能夠幫助模型學會從蛋白質層級「往上看」到細胞和系統層級。

被問到 ESMFold2 之後的下一個里程碑,Rives 毫不猶豫地說:虛擬細胞。他描述這是一個整合了蛋白質體學、基因體學、轉錄體學的模型,能夠連結到可觀察的表現型,而且具備足夠的泛化能力,可以回答模型訓練資料以外的問題。比如說,如果你對細胞做了一個全新的干預(一種沒被測試過的藥物),虛擬細胞應該能預測會發生什麼事。Rives 坦承,要達到這種真正的泛化能力,需要產生大量新資料,這也是 Biohub 三個實驗室不斷開發新實驗方法的原因。

祖克柏則把這個挑戰框架為「正常的約束最佳化」:你在推進蛋白質模型和啟動細胞模型之間做取捨,在模型規模和資料量之間找平衡,盡量讓每一步都在帕雷托最優前沿上。這聽起來像是在經營一家科技公司,只不過產品不是 app,而是對生命運作方式的數位理解。

我的觀察

ESMFold2 最有意思的地方,不是它的基準測試成績(雖然那些確實很亮眼),而是「湧現式抗體設計」這個發現對整個領域的暗示。如果一個通用蛋白質模型可以「附帶」產生治療級的抗體設計能力,那隨著模型規模和訓練資料繼續擴大,還會有什麼意想不到的能力冒出來?

另一個值得關注的訊號是 Rives 提到的:ESMFold2 發布才一週,就已經有人把它接上 AI 代理系統,自動化整個蛋白質設計流程。這和語言模型領域的發展路徑幾乎完全平行,先有強大的基礎模型,然後代理系統把它變成自動化的工作流。如果這條路在蛋白質生物學上也走得通,藥物設計的速度和成本結構可能會在幾年內徹底改變。而這正是開源模型的威力所在:正是因為 ESMFold2 完全開放,全世界的開發者才能在第一時間把它整合進自己的系統,不需要等 Biohub 自己慢慢開發應用。