把蛋白質當語言來讀,AI 自己學會了一百年的生物學
BioHub 科學長 Alex Rives 率領團隊發布 ESMFold2,一個不需要人類教導任何生物學知識的蛋白質語言模型,卻能預測蛋白質結構、設計治療用抗體。背後的關鍵不是更聰明的演算法,而是更多樣的資料和更大的規模。

本文整理自 Latent Space Podcast 2026 年 5 月播出的單集。
{{< youtube XqoBSB3nsgw >}}
一個語言模型,從來沒有被教過任何生物學知識,只是不斷地讀蛋白質序列,讀了幾十億條。然後,它自己學會了蛋白質怎麼摺疊、怎麼運作,甚至能設計出可以用來治病的抗體。這不是科幻小說的情節,而是陳乍克柏生物中心(Chan Zuckerberg Biohub,以下簡稱 BioHub)科學長 Alex Rives 在 Latent Space Podcast 上親口描述的研究成果。
Rives 的團隊剛剛發布了 ESMFold2,這是他們蛋白質語言模型家族的最新一代。它能為 68 億條蛋白質序列中的 11 億個蛋白質群預測原子級的三維結構,在抗體設計上的表現超越了 Google DeepMind 的 AlphaFold 3,而且整個模型以 MIT 開源授權釋出,任何人都能免費使用。
但真正讓這個故事值得細看的,不只是技術指標。而是 Rives 用八年時間驗證了一個在 AI 圈被稱為「苦澀的教訓」(The Bitter Lesson)的鐵律:不要試圖把人類知識硬塞進模型裡,只要給它夠多、夠多樣的資料,讓它自己去學,最終它會學到比你教得更深的東西。
蛋白質入門:為什麼它是生命的核心
在深入技術之前,先快速建立一些背景知識。
蛋白質是構成生命的核心分子。你身體裡幾乎所有重要的工作,都是蛋白質在執行:消化食物的酵素是蛋白質,抵抗病毒的抗體是蛋白質,讓肌肉收縮的肌動蛋白也是蛋白質。人體裡大約有兩萬種不同的蛋白質,它們各自負責不同的任務。
每一個蛋白質,本質上就是一串「胺基酸」的序列。你可以把胺基酸想成字母,一共有 20 種。就像英文字母排列組合成單字和句子,胺基酸的排列順序決定了一個蛋白質是什麼、能做什麼。一個典型的蛋白質可能由幾百到幾千個胺基酸組成。
但重要的是,蛋白質不是一條直線。它會在三維空間中摺疊成複雜的立體結構,而這個結構決定了它的功能。一個蛋白質如果摺疊錯誤,就像一把鑰匙被折彎了,插不進鎖孔,它就無法正常工作。阿茲海默症、帕金森氏症等疾病,都與蛋白質的錯誤摺疊有關。
所以,如果你能預測一個蛋白質會摺疊成什麼形狀,你就能理解它的功能;如果你還能設計新的蛋白質序列,讓它摺疊成你想要的形狀,你就能設計新的藥物。這就是為什麼蛋白質結構預測被稱為生物學的「聖杯問題」,也是為什麼 2024 年 AlphaFold 的突破能拿到諾貝爾化學獎。
把蛋白質當成語言:ESM 的核心直覺
Rives 的想法,聽起來簡單到不可思議:既然蛋白質序列就是一串「字母」(胺基酸),那何不直接用語言模型來讀它們?
2018 年夏天,Rives 還在 Meta 的 FAIR 實驗室時,帶領團隊訓練了第一個蛋白質 Transformer 語言模型。他們用的方法和訓練 ChatGPT 的前身 BERT 幾乎一樣:把蛋白質序列中的某些胺基酸遮住,讓模型猜測被遮住的是什麼。就像你在英文完形填空中,根據上下文猜出空格裡應該填什麼字。
但蛋白質不是英文。為什麼這個方法會有用?Rives 在訪談中引用了語言學家 Zelig Harris 1954 年的一篇經典論文《分布結構》(Distributional Structure)。Harris 的核心論點是:一個字的意義,取決於它出現的語境集合。如果你分析「狗」和「貓」這兩個字在大量文本中出現的上下文,你會發現它們出現在非常類似的語境中(「牠很可愛」、「牠需要吃飯」),所以模型能推斷出它們是相近的概念。
蛋白質也有類似的邏輯。演化不是隨意選擇胺基酸的。如果一個蛋白質要摺疊成某種形狀,它序列中的每一個位置都不是獨立的。想像一個蛋白質摺疊後,位置第 5 和位置第 200 的胺基酸在空間中緊緊相鄰。那麼,演化在第 5 個位置做的選擇,就必須和第 200 個位置的選擇「相容」。就像在一句話中,主詞決定了動詞的形態。
所以,當模型學習預測「演化會在這個位置選擇哪個胺基酸」時,它其實被迫要理解背後的限制條件:蛋白質的結構、功能、生物角色。這些東西不在訓練資料裡,但它們是決定答案的隱藏變數。模型要答對題目,就不得不自己「發明」出這些生物學概念的內部表徵。
Rives 在訪談中這樣描述:「一個胺基酸能出現在什麼語境中,取決於蛋白質的結構和功能。所以語境中的統計模式,直接反映了這些隱藏的生物學變數。模型為了做好預測,就必須學到關於這些變數的東西。」
從 ESM2 到 ESMC:苦澀的教訓在蛋白質上被驗證
Rives 說自己是「scaling 的信徒」。從 2018 年開始,他的團隊每一代模型都比上一代大一個數量級,而且每一次放大,都看到新能力的浮現。但故事並不是一路順風。
ESM2 是上一代的模型,訓練在 UniRef 這個蛋白質序列的「黃金標準」資料庫上。UniRef 彙集了來自全球各種定序計畫的蛋白質序列,經過去重和整理,是序列生物學最權威的資料集。Rives 的團隊把 ESM2 從 10 億參數擴大到 100 億參數,看到了改善,但問題也浮現了:如果把模型規模和表現畫成一張圖,曲線開始趨於平緩。換句話說,出現了「報酬遞減」。繼續加大模型,效果越來越小。
很多人可能會在這裡放棄,認為蛋白質語言模型遇到了天花板。但 Rives 認為,問題不在模型太小,而在資料不夠多樣。
這就是 ESMC(ESM Cambrian)的關鍵突破:加入總體基因體學(metagenomics)資料。
總體基因體學:從海底火山口到南極冰層的蛋白質
什麼是總體基因體學?傳統的基因定序是針對特定的生物體:你挑一隻大腸桿菌,定序它的基因體,找出它有哪些蛋白質。這是非常有針對性、有目的的研究。
總體基因體學完全不同。科學家跑到各種極端環境去,海底熱泉口、南極冰層、深海海底、土壤、人類腸道,收集環境中的所有微生物樣本,直接定序所有找到的 DNA。你不知道這些序列來自什麼生物,你甚至拿不到完整的基因體,只能拿到一些片段。很多蛋白質序列是殘缺的、有噪音的。
聽起來很雜亂,但這正是 Rives 需要的。
回到 Harris 的語言學理論:如果你想學會一個字的意義,你需要看到它在盡可能多樣的語境中出現。同樣的,如果你想讓 AI 學會蛋白質的「意義」,你需要讓它看到胺基酸在盡可能多樣的演化語境中出現。UniRef 雖然品質很高,但它偏向人類已經研究過的生物體,尤其是跟醫學和農業相關的物種。地球上絕大多數的蛋白質多樣性存在於那些沒人特別去研究的微生物裡。
加入總體基因體學資料後,訓練資料從數億條序列暴增到數十億條。效果立竿見影:ESMC 的 scaling law 曲線變得漂亮了。報酬遞減消失了,取而代之的是一條穩定上升的直線。Rives 的團隊可以用小模型的表現精確預測大模型會有多好。這意味著 ESM2 的瓶頸不是算力不夠,而是資料不夠多樣。一旦資料的多樣性跟上,scaling law 就回來了。
「這真的就是最大的改變,」Rives 在訪談中說,「ESMC 和 ESM2 參數規模差不多,但資料才是真正的關鍵。」
而且,現有的資料還遠遠沒有用完。ESMC 訓練在大約 10 億條序列上,但地球上可能存在上千億條蛋白質序列。Rives 認為我們「才剛剛開始測量地球的生物多樣性」。而且那些看起來「冗餘」的相似序列其實也有價值,因為微小的基因變異揭示了蛋白質結構和功能在最精細層面的決定因素。
打開黑盒子:模型到底學會了什麼?
到這裡,一個自然的問題是:好,模型預測得很準,但它內部到底學會了什麼?它只是在做統計上的模式匹配,還是真的理解了生物學?
Rives 的團隊用一種叫做「稀疏自編碼器」(Sparse Autoencoders,SAE)的技術來回答這個問題。這是 AI 可解釋性研究中最近很火的工具。簡單來說,SAE 能幫你把模型內部的表徵空間拆解成一個一個獨立的「特徵」,每個特徵代表模型學到的一個概念。
他們在 ESMC 的三個不同規模的模型(3 億、6 億、60 億參數)上都做了這個分析。結果令人驚嘆。
模型內部的特徵空間呈現出清晰的階層結構。最底層是基本的生化性質,比如胺基酸是親水還是疏水的、帶正電還是負電。中間層是結構性的元素,比如 alpha 螺旋和 beta 摺板這些蛋白質的基本構件。最高層是複雜的功能主題,對應到人類生物學家花了幾十年才辨識出來的功能模式。
最驚人的例子是「親核肘」(nucleophilic elbow)。這是一種特定的結構模式,出現在很多不同的蛋白質家族中。生物學家認為這些蛋白質家族之間沒有演化上的親緣關係,親核肘可能是在演化中獨立出現了好幾次。但 ESMC 的模型裡,有一個單一的特徵同時在所有這些家族中啟動,不管它們在序列上多麼不同,不管它們的整體結構多麼不同,模型用同一個內部概念來表達它們共享的這個功能模式。
這代表什麼?這代表模型不只是在做表面的模式匹配。它為了做好預測任務,自己發展出了一套和人類生物學家的理解高度對應的概念體系。但它是從零開始學的,沒有人告訴它什麼是親核肘,什麼是 alpha 螺旋。
Rives 在訪談中語帶興奮地描述這個發現:「這個階層結構真的對應到了人類花了一個世紀的實驗才建立起來的還原論生物學圖景。但最酷的是,這一切都是語言模型自己學出來的,沒有任何先驗知識。」
而且,這個特徵空間還揭示了一些人類尚未理解的連結。比如,在演化上相距很遠的基因編輯系統,在模型的特徵空間中被聚在一起了。這些聚類中還包含一些功能未知的蛋白質。一個合理的假說是:這些未知蛋白質可能就是尚未被發現的基因編輯系統。事實上,ESM Atlas 的第一個版本就已經被張鋒(Feng Zhang)的團隊用來發現了新的基因編輯系統。
從結構預測到藥物設計:抗體是最硬的考驗
預測蛋白質結構很厲害,但如果能反過來,從想要的功能出發設計全新的蛋白質,那才是真正改變遊戲規則的能力。而在所有蛋白質設計任務中,抗體設計是公認最困難的。
原因在於演化的邏輯。大多數蛋白質遵循高度保守的演化路徑。意思是,一個蛋白質家族的成員在序列上非常相似,因為演化壓力逼迫它們維持特定的結構和功能。這種保守性對 AlphaFold 這類依賴「多序列比對」(MSA)的方法非常有利:你把一個蛋白質家族的所有成員排在一起比較,就能看出哪些位置是高度保守的(可能對結構很重要),哪些位置是可變的。
但抗體恰好相反。免疫系統的運作邏輯就是多樣性。你的身體需要產生能辨識無數種病原體的抗體,所以抗體的演化壓力不是「保持一致」,而是「盡量不同」。這讓 MSA 這條路幾乎走不通,因為你找不到那種「高度保守的演化模式」來指導預測。
ESM 的路線完全繞過了這個問題。它不依賴 MSA,而是依賴模型內部學到的「世界模型」。Rives 的團隊用 ESMC 來設計單鏈可變片段(SCFV),這是一種簡化版的抗體,由一條重鏈和一條輕鏈串聯而成,能形成複雜的結合介面去辨識目標蛋白質。
具體做法是「搜尋」模型的表徵空間。你定義一個設計目標(比如「能跟某個癌症標靶蛋白結合」),然後在 ESMC 的內部空間中搜尋滿足這個條件的蛋白質序列。這個過程有點像在 ChatGPT 裡搜尋一段符合特定主題和風格的文字,只是搜尋的對象變成了蛋白質。
結果非常亮眼。設計出的 SCFV 達到了治療所需的結合親和力水準。考慮到新藥中大約四分之一是抗體類藥物,這個突破具有直接的商業和醫療價值。而且 ESMFold2 在蛋白質間互動的預測上也是開源模型中的最佳表現,這對理解細胞內蛋白質如何協作至關重要。
Rives 特別強調,這種能力來自模型的通用性:「它就是一個通用的蛋白質序列、結構和功能的模型。你去搜尋它,治療性的設計能力就從搜尋中浮現出來。」不是為抗體特製的模型,而是一個理解蛋白質世界的通用模型,自然就具備了設計抗體的能力。
ESMFold2 vs AlphaFold:兩條路線的根本差異
走到這裡,值得比較一下 ESMFold2 和 AlphaFold 這兩條路線的本質差異,因為它們代表了 AI for Science 中兩種截然不同的哲學。
AlphaFold 的路線是「先驗知識 + 精巧架構」。它的模型架構中內建了大量的生物學假設:蛋白質由多序列比對提供演化資訊,模型結構中的 Evoformer 模組專門處理這種對齊資訊,結構預測模組考慮了原子間的幾何約束。這些設計都來自人類對蛋白質摺疊的理解,它們幫助模型更有效率地學習。
ESM 的路線是「最少先驗 + 最大規模」。一個標準的 Transformer 語言模型,幾乎沒有針對蛋白質的特殊設計,只是在大量蛋白質序列上做遮蔽語言模型訓練。模型自己去發現結構、功能、演化關係。
在主持人問到 ESM3(上一代模型,加入了更多結構性的先驗知識)是否是一個「彎路」時,Rives 的回答很坦誠:「我覺得兩條路都需要。ESM3 的目標是讓生物學變得可程式化,所以我們思考了什麼是好的程式語言、怎麼讓生物學家用 prompt 來設計蛋白質。但 ESMC 的哲學是一貫的:不要給先驗,讓機器學習自己去找出最好的結構。」
這場較量的結果正在變得清晰。在多數結構預測任務上,兩者的表現已經相當接近。但在抗體這種 MSA 失效的領域,ESM 路線明顯佔優。而且 ESMFold2 因為不需要做多序列比對,推論速度快很多,只要幾秒就能從序列得到原子級的結構預測。
五億美元的願景:從分子到細胞
ESMC 和 ESMFold2 解決的是「分子層級」的問題。但要真正理解疾病、治癒疾病,你需要往上走一個層級:細胞。
一個人類細胞裡有數十億個蛋白質分子在運作,加上 RNA、脂質、各種小分子,形成了一個極其複雜的系統。目前的 AI 模型能很好地預測單一蛋白質的結構,但對於「這個蛋白質在細胞裡會跟誰互動、會產生什麼效果」這類問題,能力還很有限。
Rives 在訪談中描繪了他認為生物學下一個時代的三個定義性原則。第一是大規模的資料生成。蛋白質 AI 之所以能成功,是因為有半個世紀的蛋白質結構資料(PDB)和幾十年的基因定序資料。但細胞層級的資料遠遠不夠,需要從現在的量級擴大好幾個數量級。
第二是計算性的、預測性的數位生物學表徵。ESM 和 AlphaFold 是第一代的嘗試,未來需要能涵蓋更多生物學複雜度的模型。
第三是回饋迴圈。模型能在數位世界中推理數百萬個科學假說,然後把最值得驗證的少數幾個交給實驗室去做實驗,觀察結果,再更新自己的理解。這有點像強化學習中的 RLVR(Reinforcement Learning from Verifiable Rewards),只是獎勵信號來自真實的生物學實驗。
為了實現這個願景,BioHub 在 2026 年 4 月宣布了「虛擬生物學倡議」(Virtual Biology Initiative),總投入 5 億美元。其中 4 億美元用於內部的技術開發,包括冷凍電子斷層掃描(cryo-electron tomography)、光片顯微鏡、空間生物學等尖端實驗技術;1 億美元用於支持外部研究團隊的資料生成工作。
合作夥伴包括 Broad Institute、MIT、哈佛、Wellcome Sanger Institute、Allen Institute、Arc Institute 和 NVIDIA。目標是在幾年內(不是幾十年)產生足夠的多模態細胞資料,來訓練能真正「理解」細胞的 AI 模型。
Rives 對資料策略有很明確的思路。第一是速度:蛋白質的資料花了幾十年才累積起來,細胞的資料不能再等幾十年。第二是介入性(interventional):不只是觀察細胞在做什麼,而是主動去擾動它(比如用 perturb-seq 技術同時敲除某些基因並測量轉錄組、蛋白質組和細胞表型的變化),這樣模型才能學會因果關係。第三是空間性:不是把細胞從身體裡取出來研究,而是在它原本所處的組織環境中觀察它,因為細胞的行為高度取決於它的鄰居。
「疾病的治癒不會是一顆藥丸,」Rives 說,「它必須是一個系統,能為每一個個體、每一種基因組,模擬和理解疾病的生理機制。我們需要能把分子層級的事件一路連結到生理層級的疾病表現。」
我的觀察:苦澀的教訓正在一個又一個領域被驗證
這個故事最讓我著迷的,不是某一個技術細節,而是它和 AI 其他領域的呼應。
自然語言處理走過同樣的路。2010 年代初期,NLP 的主流做法是手工設計各種語言學特徵,告訴模型什麼是主詞、什麼是動詞、什麼是語法結構。後來大家發現,只要把模型變大、資料變多,它自己會學到這些東西,而且學得比人類設計的特徵更好。蛋白質 AI 正在重演這個故事。
電腦視覺也是。ImageNet 之前,大家用手工設計的特徵(SIFT、HOG)來辨識圖像。深度學習出來後,這些全部被取代了。
但 Rives 的故事多了一個重要的注腳:苦澀的教訓不只是「模型要大」,更關鍵的是「資料要多樣」。ESM2 的參數已經夠大了,但在 UniRef 上遇到了瓶頸。是總體基因體學資料的加入,而不是更大的模型,才打破了天花板。這跟現在大語言模型領域的困境很像:大家已經用完了網路上的高品質文本,開始想各種辦法擴充資料來源。
另一個值得思考的面向是可解釋性。ESMC 的稀疏自編碼器分析顯示,模型內部的特徵和人類的生物學概念高度對應,但也有一些人類還不理解的聚類。這些聚類可能指向尚未被發現的生物學現象。這意味著 AI 不只是在重複人類已知的知識,它可能真的在「看到」人類沒看到的東西。
最後是 BioHub 這個組織本身的定位。它不是藥廠,不是要開發治療方案來賣錢。它是一個慈善機構,目標是建立工具和基礎設施,讓全球的科學社群都能受益。所有模型開源、所有資料公開。在一個 AI 模型越來越封閉的時代,這種開放科學的承諾格外珍貴。
蛋白質語言模型的故事才剛進入第二章。第一章是證明「讀序列就能學會結構」,已經完成了。第二章是「從分子走向細胞」,那 5 億美元和那些冷凍電子顯微鏡、擾動實驗、空間生物學的數據,就是入場券。如果這條路走通了,我們對疾病的理解方式可能會根本改變:不再是「找到一個標靶、設計一顆藥」的線性流程,而是一個能為每個人的獨特生理狀況做預測和推演的數位系統。
這聽起來離我們很遠,但兩年前,用 AI 設計能跟癌症標靶結合的抗體,聽起來也很遠。