花兩年只產資料、不訓模型:Noetik 的 AI 製藥豪賭換來 GSK 五千萬美元授權
Noetik 花了 18 個月只產生資料、連模型都不訓練,在沒有任何先例的情況下豪賭 AI 能改變癌症藥物開發。這個信念最終換來生技界第一筆純基礎模型授權交易:葛蘭素史克的五千萬美元。從 Recursion 的教訓到第谷與克卜勒的天文學比喻,一則關於資料、耐心與信念的故事。

本文整理自《Latent Space: The AI Engineer Podcast》2026 年 4 月播出的單集。
{{< youtube uqM8qjbLRHA >}}
{{< apple-podcast "tw/podcast/training-transformers-to-solve-95-failure-rate-of/id1674008350?i=1000762427019" >}}
連模型都不能訓練的 18 個月
「我們開了實驗室、聘了團隊、買了所有儀器、開始採購人類腫瘤樣本。在這之前完全沒有先例可循,零。」Noetik 共同創辦人暨執行長 Ron Alfa 在 Latent Space Podcast 上回顧公司創立初期的情景。他描述的不是典型 AI 新創的故事:沒有幾週內跑出的原型、沒有快速迭代的 MVP。Noetik 在 2022 年成立後,花了將近 18 個月的時間只做一件事:產生資料。空間轉錄組學的儀器一次跑兩張玻片就要兩個星期,他們月復一月地處理樣本、建立資料管線、對齊多模態影像,累積了大量資料卻連一個模型都還沒有辦法訓練。「然後大概 18 個月之後,我們說:欸,也許可以試著訓練看看了?」Alfa 笑著回憶,「結果也不是馬上就有明顯的東西出來。」
Noetik AI 研究副總裁 Daniel Bear 證實了這段摸索期的艱辛。Bear 是哈佛神經科學博士,在史丹佛的 NeuroAILab 做了五年博士後研究,專攻電腦視覺和自監督學習。他回憶自己 2016 年讀博士時,用一種叫原位雜交的技術觀察空間 RNA,一次只能看兩個基因,一個樣本就要花整整一週的手工作業。五、六年後加入 Noetik,平台已經能在單一儀器上同時偵測一千甚至兩萬個基因的空間分布。技術的躍進帶來了前所未有的資料密度,但也意味著沒有現成的模型架構可以直接拿來用。Bear 坦言,當時市場上有一些為單細胞資料設計的 Transformer,但能處理空間多模態資料的架構基本上不存在。「我們做了很多客製化的模型開發,」他說,「這也是為什麼我們在招人的時候,特別找那些對從第一原理出發、在陌生資料地景上做機器學習研究感到興奮的人。」
這段故事的結局現在已經寫好。2024 年 12 月,Noetik 發表了第一個虛擬細胞基礎模型 OctoVC,訓練在四千萬顆空間解析的細胞上。2026 年 1 月,英國製藥巨頭葛蘭素史克(GSK)以五千萬美元取得這個模型的授權。2026 年 4 月,進化版的 Tario-2 模型已經能從一張標準病理切片預測近兩萬個基因的空間表現。但回到 2022 年的起點,這一切都還只是一個沒有任何先例支撐的賭注。
Recursion 六年的教訓
Alfa 和團隊之所以敢做這個豪賭,和他們在 Recursion 的六年經驗密不可分。Recursion 是一家總部在鹽湖城的 AI 製藥公司,以大規模自動化的細胞影像平台聞名,2024 年和另一家 AI 藥物探索公司 Exscientia 合併。Alfa 是史丹佛 MD/PhD 出身的醫師科學家,從 Recursion 的種子輪就加入,一路參與到公司 IPO,擔任資深副總裁暨研究主管。他在 Recursion 學到了幾個關鍵經驗:影像是極為強大的機器學習資料格式,因為資訊密度高、成本效率好;批次效應的控制是一切的基礎,處理不好會讓模型學到假信號;資料集的設計必須從一開始就考慮下游模型的需求。「我不知道我在 Noetik 預測的每一件事是否都重要,」Alfa 說,「但我知道我們可以從第一天就做好十件事。這十件事是之前的經驗告訴我們每一件都重要的。這讓我們跳過了很多試錯的過程。」
Bear 也強調了一個 AI 生技創業者容易忽略的陷阱:很多公司先決定要產生某種資料,然後才想辦法拿它做機器學習。但資料集本身不會自動成為有用的訓練集。你可能設計了一套資料產生流程,如果沒有考慮到批次效應的控制、樣本分布的平衡、或是下游任務的需求,那些資料對模型來說可能毫無價值。Alfa 的建議是反過來思考:先搞清楚你要解決什麼問題,然後從問題出發,設計能夠回答那個問題的資料集。聽起來是常識,但在 AI for Bio 的領域裡,他看到太多公司走了相反的路,從手上有的資料出發,再回頭找問題。
這種「先想清楚問題,再設計資料」的思維方式,是 Recursion 留給 Noetik 最重要的遺產。Recursion 執行長 Chris Gibson 個人投資了 Noetik 的種子輪,另一位共同創辦人 Jacob Rinaldi 也出自 Recursion 體系。Noetik 在 2023 年 9 月拿到 DCVC 領投的 1,400 萬美元種子輪,2024 年 8 月完成 Polaris Partners 領投的 4,000 萬美元 A 輪,投資人名單中還包括 Khosla Ventures 和深度學習先驅 Yoshua Bengio 旗下的 ApSTAT Technologies。加上 GSK 的五千萬美元授權金,Noetik 目前的資金規模已超過一億美元。在多數 AI 生技新創還在靠原型展示募資的階段,Noetik 已經用真金白銀的資料投資和商業授權證明了模式的可行性。
為什麼公開資料集不夠用
一個自然的疑問是:為什麼不直接用公開資料庫?Bear 的答案很直接:公開資料集的規模和品質都不夠。市面上有一些學術實驗室產生的配對 H&E(蘇木精伊紅染色,全球醫院標準的腫瘤分類方法)和空間轉錄組學資料,但通常只涵蓋一、兩百個病人,而且來自不同的實驗室、不同的處理流程,一致性沒有保障。相比之下,Noetik 已經產生超過一億顆空間解析的細胞資料,涵蓋多種主要癌症類型,全部在相同的實驗室條件下產生,經過嚴格的批次效應控制。他們做過的實驗很有說服力:用 10% 的資料訓練出來的模型,和用 100% 資料訓練的相比,效能差距明顯。更重要的是,用較少資料訓練的模型在泛化到其他癌症類型時表現急劇下降,說明沒有足夠的資料規模,模型就只能在訓練過的癌症類型裡轉,面對新類型時幾乎無用。
Bear 做了一個類比來說明資料規模的門檻效應。語言是目前唯一真正展現穩定規模化收益的資料模態。影片資料也很豐富,人們已經用數千小時的影片訓練模型,但並沒有看到和語言模型同等級的規模化突破。這暗示正確的資料規模和品質是必要條件,即使不是充分條件。在生物學領域,情況更嚴峻。相比語言有整個網際網路作為訓練語料庫,生物學的高品質資料遠遠不足。Noetik 的判斷是,在看到生物基礎模型的「ChatGPT 時刻」之前,資料量可能還需要再提升一個數量級。但他們也在自家的縮放實驗中看到了令人鼓舞的信號:只要資料集的規模和多樣性達到某個臨界點,模型就開始展現出跨癌種泛化的能力。「如果我們能在所有主要癌症類型和一些次要類型中各蒐集幾百個病人的資料,」Bear 說,「那可能就足以建立一個能通用於幾乎任何癌症的模型。」
技術的快速進步也在改變什麼是「可能的資料規模」。Bear 回顧自己的學術生涯,從 2016 年一次只能看兩個基因,到現在儀器能同時偵測兩萬個基因的空間分布,中間只隔了不到十年。他建議 AI 生技創業者不只要看今天的技術能做什麼,還要追蹤技術演進的方向,因為三年後能產生的資料密度和今天可能完全不在同一個量級。Noetik 自己的經驗也印證了這一點:他們曾在某個節點一次性將資料集的規模翻倍,模型的效能立刻好了一大截。在所有主要癌症類型中各蒐集幾百個病人的資料,加上一些次要類型,可能就足以建立一個能泛化到幾乎任何癌症的基礎模型。但如果要涵蓋癌症以外的所有疾病生物學,可能還需要再一個數量級。
藥廠第一次買「模型」而非「分子」
2026 年 1 月 8 日,Noetik 宣布了一筆讓業界注目的交易:GSK 以五千萬美元取得 Noetik 虛擬細胞基礎模型 OctoVC 的非獨家授權,範圍涵蓋非小細胞肺癌和大腸直腸癌。這筆交易包含前期付款、里程碑金和年度授權費。看似只是又一筆藥廠和 AI 公司的合作案,但結構完全不同。傳統的 AI 製藥合作通常是「你幫我找一個藥物標靶」或「我們一起開發一個分子」,本質上是專案制的服務合約。GSK 買的不是一個標靶,不是一個分子,不是一個專案的成果,而是模型本身。GSK 的 AI 團隊可以直接使用這些模型做內部模擬和藥物探索,更重要的是,他們可以在自己的專屬資料上進行微調。
這一點對藥廠特別有吸引力。每家大型藥廠都坐擁大量「轉譯資料」,也就是來自過去臨床試驗的病理切片、組學資料和治療反應記錄。這些資料散落在各個事業部的資料孤島裡,一直很難被有效利用。有了 Noetik 的基礎模型,GSK 等於拿到了一個「預訓練的起點」,可以在自家的私有資料上做微調,建立屬於 GSK 自己版本的模型。Alfa 認為,這筆交易之所以能夠成案,是因為它不只是軟體授權,而是一個真正的商業開發交易:前期付款規模可觀,而交易的標的物是模型而非分子。這在生技 AI 領域是第一次。Alfa 坦言,類似的交易他從在 Recursion 時期就一直在嘗試推動,但藥廠端的接受度過去一直很低。直到最近,隨著產業對 AI 能力的理解逐漸加深,態度才開始轉變。
Alfa 觀察到,藥廠對 AI 的態度正在快速轉變。幾年前,多數藥廠的 AI 團隊還在用開源工具做內部概念驗證。隨著越來越多團隊能自主評估模型的價值,對外部 AI 能力的需求也從「幫我做一個專案」升級為「給我一套能在整個管線中使用的技術」。這種轉變的驅動力之一,是藥廠發現自己坐擁的大量內部資料一直被閒置。各部門產生的病理切片、組學資料、臨床結果散落在不同的系統裡,從來沒有被統一分析過。一個預訓練的基礎模型等於提供了一把鑰匙,讓這些資料孤島有了被系統化挖掘的可能。Bear 的觀點是,沒有任何一家藥廠能獨力在內部產生足夠的訓練資料來從頭訓練一個真正的基礎模型,因為資料散落且不一致。但如果有人已經用高品質、統一化的資料訓練好了模型,藥廠只需要在上面做微調,就能釋放自家資料的潛力。
第谷的觀測站與克卜勒的定律
Bear 在對談的尾聲,用了一個天文學的比喻來描述他們正在做的事。十六世紀的丹麥天文學家第谷(Tycho Brahe)花了數十年的時間,在他的天文台上精確記錄行星的運行資料。這些觀測資料本身並沒有解釋任何物理定律,但它們成了後來克卜勒(Johannes Kepler)推導行星運動三大定律的基礎。沒有第谷幾十年如一日的精確觀測,就不可能有克卜勒的定律,更不可能有後來牛頓的萬有引力。Bear 認為 Noetik 正在做的,就是第谷的工作。他們產生的大規模、高品質、精心設計的生物資料,目前還沒有完全揭示出背後的「定律」,但它們是任何後續突破的必要基底。「有時候我不知道,如果沒有這樣一個大規模、高品質資料庫的存在,你到底怎麼開始,」Bear 說。
Alfa 最後呼籲科技圈應該把更多注意力放在生物學上。他觀察到,AI 社群的熱情大量集中在語言模型、影像生成、自駕車等主流應用,相對忽略了生物醫學領域正在發生的事。「你聽到大老們說要治癒癌症,」他說,「但大家應該真的去看看那些正在做這件事的人和公司。」Bear 則提醒,解決生物學問題需要的不只是更聰明的 AI 聊天機器人。光是讓語言模型去讀完所有生物學文獻,並不會告訴你哪個病人該用哪種藥。文獻記載的只是已知知識的一小片,真正的答案藏在病人組織裡、藏在基因表現的空間模式裡、藏在那些還沒有被產生出來的資料裡。
Bear 在對談中還提出了一個關於建模策略的洞見,值得所有做 AI for Bio 的人思考。有些研究者試圖從底層向上建構虛擬細胞,精確模擬每一個亞細胞層級的生物物理化學反應,再把單一細胞的模型組合成組織層級的預測。Bear 的判斷恰好相反:從頂層向下的抽象化,往往更有預測力。他用計算神經科學的歷史做類比。長久以來,研究者試圖建立生物物理層級的精確神經元模型,再把它們組合成大腦模型。但真正能預測大腦對真實刺激反應的,是把神經元簡化為線性非線性單元、用權重矩陣連接的深度神經網路。在腫瘤學也是如此:在功能性組織的層級建模,讓一群細胞在疾病情境中互動,比從單一細胞的分子機制組合上去,能更快逼近「哪個病人該用哪種藥」這個最終問題。這場 AI 與生物學的交會,才剛剛開始。