在醫療場景,80% 的準確率等於不及格:Abridge 的高標準 AI 實戰
為什麼醫療 AI 是最難的 AI 產品問題?Abridge 產品副總裁 Janie Lee 與工程主管 Chai Asawa 拆解他們的評估文化:LFD 流程、臨床科學家角色、漸進式部署,以及為什麼從原型到上線之間存在一道巨大的鴻溝。

本文整理自 Latent Space Podcast 2026 年 5 月播出的單集。
{{< youtube vUARtyOvh5U >}}
{{< spotify "episode/7sXRzbVyUHpKUe061mXG8w" >}}
{{< apple-podcast "tw/podcast/latent-space-the-ai-engineer-podcast/id1674008350?i=1000767833040" >}}
錯一次可能就是一條命
在一般的企業軟體中,AI 給了一個錯誤的答案,後果通常是使用者皺皺眉、重新問一次。在醫療場景中,後果可能是致命的。
這不是誇張。Abridge 的工程主管 Chai Asawa 在 Latent Space Podcast 上舉了一個直接的例子:如果系統沒有標記出病人對某種藥物過敏,而醫師根據系統的建議開了那種藥,後果就是嚴重的過敏反應,甚至死亡。這不是「功能性錯誤」(functional error),而是「臨床風險」(clinical risk)。兩者的差距,就是一般 AI 產品和醫療 AI 產品之間最根本的分水嶺。
Asawa 之前在 Glean 擔任創始工程師,Glean 是一個企業搜尋平台。他直言,兩個場景在技術結構上有很多相似之處,都是在龐大的資料中找到正確的上下文,然後生成有用的回答。但在 Glean,一個錯誤的搜尋結果頂多讓使用者多花幾分鐘。在 Abridge,同樣等級的技術疏忽可能造成不可挽回的傷害。這個差異滲透到整個公司的開發文化、評估流程、部署策略,甚至招聘標準。
產品副總裁 Janie Lee 用她之前在 Opendoor(房地產科技公司)的經驗做對比。在 Opendoor,她負責房屋定價模型,每一個定價異常值(outlier)都會吃掉 30 筆正常交易的利潤。醫療的邏輯類似但後果更嚴重:一份不完整的病歷文件可能導致拒絕理賠,影響整個醫療體系的財務健康。而一個遺漏的臨床警示,代價可能不只是金錢。
「看那該死的資料」:LFD 文化
Abridge 內部有一個文化符號叫「LFD」。新員工通常在入職三天內就會聽到這個縮寫,但可能得花一段時間才敢開口問它到底是什麼意思。答案是:Look at the F***ing Data。翻成白話就是「去看那該死的資料」。
這個看似粗魯的口號背後,藏著一個在機器學習領域非常普遍的陷阱。當你在訓練和評估模型時,很容易陷入一種模式:只看指標在往上走就覺得一切順利。準確率從 92% 提升到 94%,團隊開香檳慶祝。但如果你不去看那 6% 的錯誤案例裡面具體是什麼,你可能錯過了一些非常嚴重的問題。也許模型在心臟科的表現非常好,但在皮膚科的準確率其實下降了。也許整體指標提升了,但在某個特定的邊緣案例上,模型的行為變得更危險了。
LFD 要求團隊成員必須手動檢視 AI 的實際輸出。不是看統計報表,是讀真實的筆記、看真實的決策建議、比對真實的臨床情境。這個過程很慢、很笨,但在高風險環境中不可或缺。Lee 把它比喻為品管流程中的「人工抽檢」:自動化測試可以告訴你指標數字,但只有人類的眼睛才能判斷輸出是否在臨床上真正合理。
值得注意的是,LFD 不是一次性的關卡,而是持續的文化實踐。每一次模型更新、每一次功能迭代、每一次發布之前,都要走這個流程。Abridge 結合了 LLM 判斷器(LLM judges)和人類標註員來進行評估。先用標註資料校準 LLM 判斷器的標準,確保它跟人類專家的判斷高度一致,然後才用它來大規模篩選。但在關鍵節點上,仍然需要人類專家的最終確認。
臨床科學家:你找不到的那種人才
要做好 LFD,你需要一種非常特殊的人才:同時懂醫學和懂技術的人。Abridge 為這種人創造了一個正式的職位叫「臨床科學家」(clinician scientist)。
Lee 描述這個角色時笑著說,公司內部有人把他們叫做「突變人」(mutants)。這個稱呼其實很傳神,因為同時擁有 MD 學位和深厚工程背景的人確實非常罕見。他們有些幾乎是全端工程師的水準,有些雖然不寫程式碼但對 prompt engineering 極其精通。不管偏向哪一端,他們共同的特點是能夠在技術和臨床兩個世界之間自由切換。
臨床科學家被直接嵌入到產品團隊中,不是作為外部顧問偶爾提供意見,而是參與日常的產品決策。他們的價值不只是判斷某個產品是否「臨床上有用」,更重要的是深度參與整個評估流程。什麼算是一份好的心臟科筆記?這份筆記是否完整到可以用於計費?特定專科的邊緣案例有哪些?這些問題不能靠工程師或產品經理來回答。Lee 直說:「你不會想讓 Chai 或我來制定評估標準,因為我們沒有臨床背景。」
這個角色的稀缺性也構成了 Abridge 的競爭壁壘之一。培養一位臨床科學家需要十幾年的教育和訓練(醫學院加上技術能力),而且這些人在就業市場上有大量的替代選擇。能夠吸引和留住他們,本身就說明了公司在醫療 AI 領域的地位。
漸進式部署:從自駕車學到的教訓
Asawa 反覆提到 Waymo(Alphabet 旗下的自動駕駛公司)作為類比。Waymo 有一句標語是「世界上最有經驗的駕駛者」,因為它的車輛在真實道路上累積了數十億英里的行駛數據。Abridge 的邏輯類似:透過漸進式部署(progressive rollout),在真實環境中持續累積資料和經驗,同時把風險控制在可接受的範圍內。
漸進式部署在 Abridge 的脈絡中意味著什麼?首先是離線評估。在任何新功能或模型變更進入生產環境之前,必須先在大規模的離線評估集上通過測試。這些評估集涵蓋不同專科、不同場景、不同複雜度的案例,而且規模會隨著時間持續擴大。Lee 提到,決定需要幾百筆還是幾千筆離線測試案例,本身就是一門需要校準的藝術。
通過離線評估之後,才進入有限範圍的線上測試。這通常從少數幾家願意配合創新的醫療體系開始。Abridge 花了很長時間跟客戶建立信任關係,讓他們願意在正式發布週期之外接受測試版產品。Lee 用了一句很有畫面感的話來描述這個過程:「信任是一滴一滴累積的,但可以一桶一桶失去。」
這跟 Asawa 在 Glean 時期的做法形成強烈對比。在 Glean,他可能今天做出一個功能,明天就 alpha 測試,下週就全面上線。這種速度在企業搜尋的場景中完全合理,因為出錯的成本很低。但在醫療場景中,同樣的節奏會讓人夜不安寢。
有趣的是,這種「慢」其實讓 Abridge 在某些方面變得更快。因為部署前的評估流程非常嚴謹,一旦功能通過了所有關卡進入生產環境,團隊對它的品質有很高的信心,後續不太需要緊急修補。相較之下,「快速上線、快速修復」的模式雖然看起來節奏快,但算上修復的時間和因修復產生的信任損耗,總成本反而更高。
醫療不是一個市場,是幾十個
Lee 從產品管理的角度觀察到,外界常把「醫療」當成一個單一的龐大市場來討論。但實際上,它是由幾十個甚至上百個子市場組成的。心臟科和皮膚科是不同的世界。門診和住院是不同的世界。醫師和護理師是不同的世界。每個子市場都有自己的工作流程、評估標準、成功定義。
這對評估系統的設計有直接影響。你不能用一套通用的評估集來覆蓋所有場景。一份在初級照護中得到高分的筆記,放到腫瘤科可能完全不及格。計費(coding)的規則在不同專科之間差異巨大,Lee 提到有時候需要跟專業的計費團隊合作而不是臨床醫師,因為判斷一份文件是否「可計費」需要的是帳務專業知識而不是臨床知識。
Abridge 應對這個挑戰的方式是建立分層的評估架構。有通用的安全基線(所有專科共享的底線要求),有專科特定的品質標準(每個專科獨立校準),還有機構特定的偏好設定(反映個別醫療體系的指引)。三層疊加起來,才能覆蓋真實世界的複雜性。
建立這套架構需要大量的領域專家和營運投入。Lee 坦言,很多時候這不是一個優美的機器學習問題,而是一個辛苦的營運問題。哪些第三方評估機構在哪些專科上表現最好?在什麼情況下需要內部評估而不是外包?什麼時候幾百筆測試案例就夠了,什麼時候需要幾千筆?這些判斷需要犯過足夠多的錯誤才能校準,而且每一次錯誤的成本都很高。
法規不是阻力,是順風
加入醫療產業之前,Asawa 最大的顧慮之一就是法規環境。醫療是出了名的高度監管產業,外界普遍的印象是法規會大幅拖慢創新速度。但進來之後,他發現現實比想像中樂觀得多。
他特別提到了兩個有利的趨勢。第一,美國政府積極推動醫療體系之間的資料互通性(interoperability)。這意味著不同的電子病歷系統之間要能夠交換資料,不同的醫療機構之間要能夠共享病人的紀錄。對 Abridge 來說,互通性越高,它能取得的上下文就越豐富,產品的表現也就越好。
第二個趨勢更直接:FDA 在 2026 年 1 月發布了更新版的臨床決策支援指引。前一版是 2022 年的,對 AI 系統有很多繁瑣的要求。新版本明顯更加前瞻性,對 AI 在臨床決策支援中的角色採取了更開放的態度。Asawa 認為,這代表法規環境正在從「防堵」轉向「引導」,監管機構開始認識到 AI 在改善病人安全和照護品質上的潛力。
這並不代表法規不重要或可以忽略。相反,Abridge 投入了大量資源確保合規性,從資料去識別化到部署流程都有嚴格的標準。但 Asawa 的重點是,法規不再是阻止你做事的壁壘,而是在為 AI 的合理應用鋪路。
最難的 AI 問題會在這裡先被解決
訪談接近尾聲時,Lee 分享了一個讓她自己都意外的觀察。她原本以為,醫療會是 AI 創新的最後一站。畢竟標準那麼高、風險那麼大、評估那麼複雜,其他產業的 AI 應用一定會先成熟,然後醫療才慢慢跟上。
但她現在的看法完全相反。正因為醫療對準確度的要求如此嚴苛,那些在其他產業可以「先做到 80% 再說」的問題,在醫療場景中必須被真正解決。零容錯的評估框架、多步驟的複雜工作流程、人機協作的最佳實踐,這些方法論被迫在最嚴苛的環境中鍛造出來。而一旦在醫療場景中被驗證有效,它們很可能會回過頭來影響整個 AI 產業。
Asawa 也從技術的角度呼應了這個觀點。他指出,過去業界對醫療科技公司有一種偏見,認為它們「技術上不那麼有趣」。但事實上,在即時對話中提供高品質、低延遲的臨床決策支援,同時確保成本可控和隱私合規,這本身就是一個極其困難且有趣的工程問題。它涉及模型選擇策略、資料飛輪設計、事件驅動架構、多 agent 協作、衝突解決機制(他甚至提到了 CRDT,一種用於分散式系統的資料結構),複雜程度不亞於任何前沿的 AI 基礎架構挑戰。
對於正在構建 AI 產品的開發者來說,Abridge 的經驗或許提供了一個值得思考的框架:不是把嚴格的評估和漸進式部署視為拖慢速度的累贅,而是把它們視為在複雜環境中建立持久信任的投資。速度很重要,但在高風險場景中,可靠性才是真正的競爭優勢。