九成癌症新藥都失敗了,問題不在藥本身:AI 基礎模型如何解開「病人配對」難題
癌症藥物在臨床試驗中的失敗率高達九成,但 Noetik 共同創辦人 Ron Alfa 認為問題不在藥理學,而在我們無法精準找到適合的病人。這家公司用多模態空間生物學資料訓練 AI 基礎模型,只需一張標準病理切片就能預測病人的基因表現模式,從根本改變臨床試驗設計。

本文整理自《Latent Space: The AI Engineer Podcast》2026 年 4 月播出的單集。
{{< youtube uqM8qjbLRHA >}}
{{< apple-podcast "tw/podcast/training-transformers-to-solve-95-failure-rate-of/id1674008350?i=1000762427019" >}}
藥沒問題,是我們選錯了病人
90% 到 95% 的癌症新藥在臨床試驗中宣告失敗。這個數字在製藥界早已不是新聞,但多數人對失敗原因的理解是錯的。成立於 2022 年、總部位於南舊金山的 AI 生技公司 Noetik,其共同創辦人暨執行長 Ron Alfa 在 Latent Space Podcast 上提出了一個出乎意料的論點:問題不在藥理學,不在標靶選擇,甚至不在分子設計本身。「我們在這些方面其實比製藥史上任何時期都做得更好,」他說。真正的瓶頸是病人選擇。我們手上有能治療某些病人的藥物,但無法判斷哪些病人會從中受益。Alfa 是史丹佛大學 MD/PhD 出身的醫師科學家,曾在 AI 製藥公司 Recursion 從種子輪待到 IPO,擔任資深副總裁暨研究主管。他和 Noetik AI 研究副總裁 Daniel Bear(哈佛神經科學博士、史丹佛博士後研究員)都認為,解題的關鍵不是做出更好的藥,而是建立能理解病人生物學的 AI 基礎模型。
這不是純理論的推測。在癌症臨床試驗中安慰劑效應幾乎為零,所以當某些病人確實對一款新藥產生反應,那背後一定存在某種生物學機制在起作用。問題在於,這群有反應的病人被淹沒在大量無反應的病人之中,整體統計結果不顯著,藥物就此被判死刑。想像一下:光是肺癌可能就有十種以上尚未被辨識的亞型,而一個早期臨床試驗通常只收五十個病人。如果你連收的是哪種肺癌亞型都不確定,在五十人裡找到統計顯著的療效信號,機率微乎其微。大量有潛力的藥物就這樣被淘汰了,不是因為它們無效,而是因為我們把它們餵給了錯誤的病人群體。
Alfa 在訪談中勾勒出的,不只是一個學術觀點,而是一套已經在商業上獲得驗證的技術路線。Noetik 從零開始建立了超過一億顆空間解析細胞的多模態資料集,訓練了能理解病人生物學的基礎模型,並在 2026 年初和英國製藥巨頭葛蘭素史克(GSK)簽下了五千萬美元的模型授權交易,這是生技 AI 領域第一筆以「模型」而非「分子」為標的物的大型交易。要理解這套方法為什麼可行,得先搞清楚傳統藥物開發為什麼走進了死胡同。答案藏在那些被養了五十年的癌症細胞株裡。
被養了五十年的「科學怪人」細胞株
要理解為什麼「選對病人」這麼難,得先看現行藥物開發的前臨床流程出了什麼問題。Alfa 用了一個尖銳的詞來形容傳統癌症細胞株:「科學怪人式的細胞」。這些細胞株已經在實驗室裡被養了四、五十年,為了永生化而攜帶異常數量的染色體,基因表現模式和人體內任何已知細胞都對不上。簡單講,你拿來做實驗的「大腸癌細胞株」,可能連真正大腸癌的關鍵突變都沒有。但製藥流程就是這樣跑的。你開發出一款新藥,送去外包實驗室,讓它在幾百種癌症細胞株上測試反應,看看五十種大腸癌細胞株哪些有反應、五十種卵巢癌細胞株哪些有反應,然後試著從中找出規律。這個流程行之有年,製藥業在裡面投入了二、三十年的時間和資源,但根本問題始終沒有解決:這些細胞株作為一種抽象化工具,無法對應到真實病人的生物學。
等到藥物進入臨床階段,臨床團隊面對的現實是:前臨床資料沒有給出任何有意義的病人選擇指引。不知道該收什麼癌症類型、什麼基因背景、什麼免疫微環境的病人。最後的做法通常是設計一個完全開放的試驗,所有腫瘤類型都收,所有病人都歡迎,然後在廣大的病人群體中搜尋療效信號。Alfa 用默克(Merck)旗下的免疫療法藥物 Keytruda 說明了這種方式的代價:默克在不同病人群體中跑了數百場、甚至可能超過一千場臨床試驗,才陸續找出 Keytruda 在哪些卵巢癌亞群、哪些肺癌亞群、哪些大腸癌亞群有效。這全部是靠「收病人、看結果」的笨方法堆出來的。如果能事先從模型的嵌入向量中看出哪個病人亞群最可能有反應,光是縮小試驗範圍這一步,就能省下巨額成本和數年時間。
Bear 進一步指出了更根本的問題:目前用來篩選病人的生物標記本身就有嚴重偏誤。傳統做法是看病人有沒有某個特定突變,或用單一蛋白質染色來決定誰該接受治療。但癌症生物學遠比一個基因或一個蛋白質來得複雜。「沒有理由認為你能用這麼簡單的生物標記,就捕捉到大部分有意義的變異,」Bear 說。多數現有生物標記和臨床成功之間的相關性很弱,而真正能預測療效的,可能是數百個基因、蛋白質和免疫細胞之間的複雜互動模式。Noetik 的核心假設是:如果你用更豐富、更多模態的資料來觀察腫瘤,你會發現過去被歸類為同一種肺癌亞型的病人,其實是三種截然不同的疾病。只有準確辨識這些「真正的亞型」,才有可能精準配對藥物。
兩萬個頻道的超級影像
Noetik 的解法從資料開始。他們不使用公開資料庫,也不從外部拼湊零散的資料集,而是在自家實驗室從頭產生所有資料。Bear 用 ImageNet 來說明這個決定背後的邏輯:ImageNet 之所以能引爆電腦視覺的深度學習革命,不是因為從網路上隨便撈了一堆圖片,而是因為有人精心策劃了 120 萬張高品質、有標註的影像。蛋白質結構資料庫 PDB 的故事也類似,花了五十年有計畫地累積結構資料,才成為 AlphaFold 的訓練基底。「在生物學裡,你不能靠暴力蒐集隨機資料來解決問題,」Bear 強調,「你必須從一開始就有意識地設計資料集,對你想訓練什麼樣的模型有前瞻性的思考。」資料的品質、一致性和設計意圖,比單純的數量更重要。
Noetik 的資料堆疊包含三個層次,每一層對應不同解析度的生物資訊。最底層是 H&E 染色(蘇木精與伊紅染色),全球醫院用來分類腫瘤的標準方法,產出一張 RGB 影像,呈現組織層級的結構,病理學家用它來做腫瘤的初步分類。第二層是多重免疫螢光染色,用抗體標記不同的免疫細胞亞型,包括各種 T 細胞、B 細胞和腫瘤微環境中的其他免疫細胞。這一層產出多頻道影像,每個頻道對應一種細胞標記,讓模型能學到細胞層級的免疫生物學。第三層是空間轉錄組學,在保留每個細胞空間位置的前提下,測量它表現了哪些基因、表現了多少。這是最關鍵的一層,因為它直接連結到分子機制和藥物標靶。人類基因體有大約兩萬個基因,所以一個空間轉錄組學的資料點,等同於一張有兩萬個頻道的影像。Bear 把這稱為一個「非常扎實」的電腦視覺問題。
為了確保資料品質,Noetik 對批次效應的控制極為嚴格。所謂批次效應,就是在不同時間、不同條件下處理的樣本,會產生與生物學無關的系統性差異。這是生物資料集的老問題,處理不好的話,模型學到的不是病人之間的真實差異,而是實驗室處理流程的差異。Noetik 的做法是把每個病人的腫瘤樣本切割數十次,分散到不同的隨機化陣列上。每個陣列包含數百個不同病人的樣本,而每個病人又出現在多個陣列上。這樣下游分析時就可以驗證:模型學到的嵌入向量到底代表真實的生物學差異,還是只反映了處理批次的實驗誤差。截至目前,Noetik 已經產生超過一億顆空間解析的細胞資料,全部配對 H&E 和蛋白質染色,規模比任何公開資料集至少大一個數量級。
一張病理切片就能預測整個基因體
這套多模態資料堆疊最精妙的設計,在於推論時的極度簡化。模型訓練時吃進 H&E、蛋白質染色和空間轉錄組學三種資料,但推論時只需要一張 H&E 影像。這不是妥協,而是刻意的策略。H&E 是病理學的「通用語言」,幾乎所有進入臨床試驗的癌症病人都有 H&E 切片,而且多數已經數位化。這意味著 Noetik 的模型可以直接套用在任何藥廠過去累積的臨床試驗資料上,不需要回去重新採集樣本或做額外檢測。Bear 解釋了這帶來的巨大槓桿效應:一張標準的病理切片,在模型眼中就能預測出接近兩萬個基因的空間表現模式。「我們訓練時用了所有多模態資料,」Bear 說,「但推論時只需要一張 H&E,那可以是我們實驗室生成的,也可以是藥廠幾年前的臨床試驗留下的數位影像。」
這種能力在實際應用中有幾個方向。最直接的場景是:一家藥廠有一款藥物,部分病人有反應、部分沒有。把所有病人的 H&E 影像餵進模型,模型會在嵌入空間中自動把病人分群。如果有反應的病人集中在某幾個群集,而無反應的病人分散在其他群集,就有了清晰的假說:下一期試驗只收特定群集的病人。更進一步,模型不只給分群結果,還能顯示每個群集中哪些基因的預測表現量較高,提供可解釋性。你可以確認有反應的群集確實在表現藥物的標靶蛋白,同時發現其他相關但意料之外的生物學特徵。Noetik 已經和多家藥廠合作,用這種方法分析過去第二期、第三期試驗的資料,協助設計下一輪試驗。其中一個已公開的合作案是與 Agenis 的合作,針對不同作用機制的藥物,在相同的癌症類型中找出各自有效的病人亞群。
另一個應用方向是「反向轉譯」。傳統流程是從實驗室發現標靶,開發分子,再到臨床測試。Noetik 反過來,直接在病人資料上運行模擬。如果你有一款瞄準特定蛋白質的藥物,模型可以在不同癌種的病人群體中模擬:敲掉這個蛋白質的基因,對不同亞群的腫瘤微環境會產生什麼效應?T 細胞的行為會改變嗎?腫瘤的生長模式會受影響嗎?Alfa 提到,模擬結果有時會揭示出意料之外的結論。你原本以為你的藥物適合肺癌,但模型顯示這個標靶在肺癌中其實不太重要,在卵巢癌的某個亞群中反而扮演關鍵角色。這種跨癌種的視野,在傳統逐一試驗的框架中幾乎不可能獲得。
小鼠體內的人類地圖
即使有了強大的人類資料模型,Noetik 還是面臨一個務實的問題:監管機構需要動物實驗資料。但 Noetik 從創業第一天就拒絕使用傳統細胞株。他們開發了一個叫 PerturbMap 的平台,利用 CRISPR 基因編輯技術,在一隻小鼠的肺部同時產生上百種帶有不同基因敲除的腫瘤。每種敲除都有蛋白質條碼標記,可以追蹤哪個腫瘤對應哪個被敲掉的基因。一隻小鼠的肺部影像看起來密密麻麻全是腫瘤,每一顆的生物學特性都不同。有的免疫浸潤豐富,有的幾乎完全沒有免疫細胞,而這些差異完全由已知的基因敲除驅動。你甚至可以同時用五十種不同藥物處理不同批次的小鼠,建立基因型和藥物反應的交叉矩陣。
更大膽的嘗試是把訓練在人類資料上的模型,直接拿去分析小鼠的 H&E 影像。結果讓團隊驚喜:小鼠的 H&E 在模型眼中和人類的 H&E 夠像,模型能準確判斷哪些小鼠腫瘤是免疫「冷」的、哪些是「熱」的。Bear 分享了一個特別有說服力的驗證:他們敲除了同一條信號通路上的五、六個不同基因,模型預測這些敲除會產生相同的表型。這完全符合幾十年來的生物學文獻。Noetik 還進一步開發了「矽中人類化」(in silico humanization)技術,讓小鼠系統的所有轉錄組輸出都映射到人類基因。這解決了動物模型一個長期存在的痛點:很多在小鼠上有效的基因靶點,到了人類身上根本不存在對應的生物通路。透過這層映射,從小鼠實驗中發現的有趣靶點,可以直接對接到人類臨床的可行性評估。
這套驗證體系的價值不僅在於確認模型的準確性,更在於它提供了一個可控的實驗環境。在人類臨床資料中,你看到某個病人亞群對藥物有反應,但很難確定是什麼生物學因素驅動了那個反應,因為變數太多。在 PerturbMap 系統裡,每個腫瘤的基因擾動是已知的,你可以直接驗證模型預測的表型是否和基因擾動的已知效應一致。當模型對已知的陽性對照和陰性對照都判斷正確時,你就有更大的信心去相信它在未知領域的預測。Alfa 坦承,面對全新的發現時,不確定性依然存在。但隨著越來越多已知的生物學規律被模型成功復現,團隊對模型在未知領域的預測越來越有信心。
自迴歸架構帶來的意外突破
在模型架構方面,Noetik 經歷了一次重要的轉向。早期的 OctoVC 模型(已授權給 GSK 的虛擬細胞基礎模型)使用遮蔽自編碼器架構,類似 BERT 的訓練方式:把資料切成小塊,隨機遮住一部分,讓模型預測被遮住的內容。Bear 發現了一個有趣的現象:如果只遮住 10% 的資料,模型學到的只是如何延續邊緣和紋理這類無聊的局部模式,對理解病人的整體生物學結構沒有幫助。必須遮住非常大比例的資料(在 OctoVC 中高達 99%),模型才被迫學習不同蛋白質和基因之間深層的空間關聯。後來開發的 Tario 模型走了另一條路,改用自迴歸架構,也就是類似 GPT 的「預測下一個 token」任務。Bear 將其描述為一種特殊的遮蔽策略:不是隨機遮,而是永遠預測序列中的下一個元素。
這個架構選擇帶來了明顯更好的規模化行為。當模型變大、上下文長度增加時,Tario 的效能提升幅度遠超過遮蔽自編碼器。Bear 特別提到一個微妙但重要的發現:更大的模型只有在更長的上下文長度下才會展現優勢。在生物學場景中,更長的上下文意味著模型能同時「看到」更大面積的組織。他推測這反映了病人層級的生物學確實需要更完整的空間脈絡才能被模型捕捉到。低表現量但高度預測性的基因,可能只有在觀察到足夠大的組織區域時才會顯現其模式。這項發現對整個 AI for Bio 領域有更廣泛的意義。語言目前是唯一真正展現穩定規模化收益的資料模態,而 Noetik 的實驗暗示,在足夠品質和規模的生物資料上,類似的突破可能就在不遠處。
Noetik 在 2026 年 4 月發表了 Tario 的進化版 Tario-2,一個兩億參數的模型,能從一張 H&E 影像直接預測近兩萬個基因的空間表現圖譜,完全不需要空間轉錄組學的資料作為輸入。這等於把一個原本需要專門儀器、耗時數週的昂貴實驗,壓縮成了一張現成病理切片加上幾秒鐘的模型推論。如果這項技術持續進步,它的影響不只是加速藥物開發,而是可能從根本改變臨床腫瘤學的實踐方式。每個走進醫院的癌症病人,都會有一張 H&E 切片。而那張切片,在 AI 模型的解讀下,可能蘊含著比任何單一生物標記都更豐富的治療決策資訊。