AI 開發實戰

在醫療場景，80% 的準確率等於不及格：Abridge 的高標準 AI 實戰

為什麼醫療 AI 是最難的 AI 產品問題？Abridge 產品副總裁 Janie Lee 與工程主管 Chai Asawa 拆解他們的評估文化：LFD 流程、臨床科學家角色、漸進式部署，以及為什麼從原型到上線之間存在一道巨大的鴻溝。

2026 年 5 月 30 日 · 來源： Latent Space Podcast

本文整理自 Latent Space Podcast 2026 年 5 月播出的單集。

{{< apple-podcast "tw/podcast/latent-space-the-ai-engineer-podcast/id1674008350?i=1000767833040" >}}

錯一次可能就是一條命

在一般的企業軟體中，AI 給了一個錯誤的答案，後果通常是使用者皺皺眉、重新問一次。在醫療場景中，後果可能是致命的。

這不是誇張。Abridge 的工程主管 Chai Asawa 在 Latent Space Podcast 上舉了一個直接的例子：如果系統沒有標記出病人對某種藥物過敏，而醫師根據系統的建議開了那種藥，後果就是嚴重的過敏反應，甚至死亡。這不是「功能性錯誤」（functional error），而是「臨床風險」（clinical risk）。兩者的差距，就是一般 AI 產品和醫療 AI 產品之間最根本的分水嶺。

Asawa 之前在 Glean 擔任創始工程師，Glean 是一個企業搜尋平台。他直言，兩個場景在技術結構上有很多相似之處，都是在龐大的資料中找到正確的上下文，然後生成有用的回答。但在 Glean，一個錯誤的搜尋結果頂多讓使用者多花幾分鐘。在 Abridge，同樣等級的技術疏忽可能造成不可挽回的傷害。這個差異滲透到整個公司的開發文化、評估流程、部署策略，甚至招聘標準。

產品副總裁 Janie Lee 用她之前在 Opendoor（房地產科技公司）的經驗做對比。在 Opendoor，她負責房屋定價模型，每一個定價異常值（outlier）都會吃掉 30 筆正常交易的利潤。醫療的邏輯類似但後果更嚴重：一份不完整的病歷文件可能導致拒絕理賠，影響整個醫療體系的財務健康。而一個遺漏的臨床警示，代價可能不只是金錢。

「看那該死的資料」：LFD 文化

Abridge 內部有一個文化符號叫「LFD」。新員工通常在入職三天內就會聽到這個縮寫，但可能得花一段時間才敢開口問它到底是什麼意思。答案是：Look at the F***ing Data。翻成白話就是「去看那該死的資料」。

這個看似粗魯的口號背後，藏著一個在機器學習領域非常普遍的陷阱。當你在訓練和評估模型時，很容易陷入一種模式：只看指標在往上走就覺得一切順利。準確率從 92% 提升到 94%，團隊開香檳慶祝。但如果你不去看那 6% 的錯誤案例裡面具體是什麼，你可能錯過了一些非常嚴重的問題。也許模型在心臟科的表現非常好，但在皮膚科的準確率其實下降了。也許整體指標提升了，但在某個特定的邊緣案例上，模型的行為變得更危險了。

LFD 要求團隊成員必須手動檢視 AI 的實際輸出。不是看統計報表，是讀真實的筆記、看真實的決策建議、比對真實的臨床情境。這個過程很慢、很笨，但在高風險環境中不可或缺。Lee 把它比喻為品管流程中的「人工抽檢」：自動化測試可以告訴你指標數字，但只有人類的眼睛才能判斷輸出是否在臨床上真正合理。

值得注意的是，LFD 不是一次性的關卡，而是持續的文化實踐。每一次模型更新、每一次功能迭代、每一次發布之前，都要走這個流程。Abridge 結合了 LLM 判斷器（LLM judges）和人類標註員來進行評估。先用標註資料校準 LLM 判斷器的標準，確保它跟人類專家的判斷高度一致，然後才用它來大規模篩選。但在關鍵節點上，仍然需要人類專家的最終確認。

臨床科學家：你找不到的那種人才

要做好 LFD，你需要一種非常特殊的人才：同時懂醫學和懂技術的人。Abridge 為這種人創造了一個正式的職位叫「臨床科學家」（clinician scientist）。

Lee 描述這個角色時笑著說，公司內部有人把他們叫做「突變人」（mutants）。這個稱呼其實很傳神，因為同時擁有 MD 學位和深厚工程背景的人確實非常罕見。他們有些幾乎是全端工程師的水準，有些雖然不寫程式碼但對 prompt engineering 極其精通。不管偏向哪一端，他們共同的特點是能夠在技術和臨床兩個世界之間自由切換。

臨床科學家被直接嵌入到產品團隊中，不是作為外部顧問偶爾提供意見，而是參與日常的產品決策。他們的價值不只是判斷某個產品是否「臨床上有用」，更重要的是深度參與整個評估流程。什麼算是一份好的心臟科筆記？這份筆記是否完整到可以用於計費？特定專科的邊緣案例有哪些？這些問題不能靠工程師或產品經理來回答。Lee 直說：「你不會想讓 Chai 或我來制定評估標準，因為我們沒有臨床背景。」

這個角色的稀缺性也構成了 Abridge 的競爭壁壘之一。培養一位臨床科學家需要十幾年的教育和訓練（醫學院加上技術能力），而且這些人在就業市場上有大量的替代選擇。能夠吸引和留住他們，本身就說明了公司在醫療 AI 領域的地位。

漸進式部署：從自駕車學到的教訓

Asawa 反覆提到 Waymo（Alphabet 旗下的自動駕駛公司）作為類比。Waymo 有一句標語是「世界上最有經驗的駕駛者」，因為它的車輛在真實道路上累積了數十億英里的行駛數據。Abridge 的邏輯類似：透過漸進式部署（progressive rollout），在真實環境中持續累積資料和經驗，同時把風險控制在可接受的範圍內。

漸進式部署在 Abridge 的脈絡中意味著什麼？首先是離線評估。在任何新功能或模型變更進入生產環境之前，必須先在大規模的離線評估集上通過測試。這些評估集涵蓋不同專科、不同場景、不同複雜度的案例，而且規模會隨著時間持續擴大。Lee 提到，決定需要幾百筆還是幾千筆離線測試案例，本身就是一門需要校準的藝術。

通過離線評估之後，才進入有限範圍的線上測試。這通常從少數幾家願意配合創新的醫療體系開始。Abridge 花了很長時間跟客戶建立信任關係，讓他們願意在正式發布週期之外接受測試版產品。Lee 用了一句很有畫面感的話來描述這個過程：「信任是一滴一滴累積的，但可以一桶一桶失去。」

這跟 Asawa 在 Glean 時期的做法形成強烈對比。在 Glean，他可能今天做出一個功能，明天就 alpha 測試，下週就全面上線。這種速度在企業搜尋的場景中完全合理，因為出錯的成本很低。但在醫療場景中，同樣的節奏會讓人夜不安寢。

有趣的是，這種「慢」其實讓 Abridge 在某些方面變得更快。因為部署前的評估流程非常嚴謹，一旦功能通過了所有關卡進入生產環境，團隊對它的品質有很高的信心，後續不太需要緊急修補。相較之下，「快速上線、快速修復」的模式雖然看起來節奏快，但算上修復的時間和因修復產生的信任損耗，總成本反而更高。

醫療不是一個市場，是幾十個

Lee 從產品管理的角度觀察到，外界常把「醫療」當成一個單一的龐大市場來討論。但實際上，它是由幾十個甚至上百個子市場組成的。心臟科和皮膚科是不同的世界。門診和住院是不同的世界。醫師和護理師是不同的世界。每個子市場都有自己的工作流程、評估標準、成功定義。

這對評估系統的設計有直接影響。你不能用一套通用的評估集來覆蓋所有場景。一份在初級照護中得到高分的筆記，放到腫瘤科可能完全不及格。計費（coding）的規則在不同專科之間差異巨大，Lee 提到有時候需要跟專業的計費團隊合作而不是臨床醫師，因為判斷一份文件是否「可計費」需要的是帳務專業知識而不是臨床知識。

Abridge 應對這個挑戰的方式是建立分層的評估架構。有通用的安全基線（所有專科共享的底線要求），有專科特定的品質標準（每個專科獨立校準），還有機構特定的偏好設定（反映個別醫療體系的指引）。三層疊加起來，才能覆蓋真實世界的複雜性。

建立這套架構需要大量的領域專家和營運投入。Lee 坦言，很多時候這不是一個優美的機器學習問題，而是一個辛苦的營運問題。哪些第三方評估機構在哪些專科上表現最好？在什麼情況下需要內部評估而不是外包？什麼時候幾百筆測試案例就夠了，什麼時候需要幾千筆？這些判斷需要犯過足夠多的錯誤才能校準，而且每一次錯誤的成本都很高。

法規不是阻力，是順風

加入醫療產業之前，Asawa 最大的顧慮之一就是法規環境。醫療是出了名的高度監管產業，外界普遍的印象是法規會大幅拖慢創新速度。但進來之後，他發現現實比想像中樂觀得多。

他特別提到了兩個有利的趨勢。第一，美國政府積極推動醫療體系之間的資料互通性（interoperability）。這意味著不同的電子病歷系統之間要能夠交換資料，不同的醫療機構之間要能夠共享病人的紀錄。對 Abridge 來說，互通性越高，它能取得的上下文就越豐富，產品的表現也就越好。

第二個趨勢更直接：FDA 在 2026 年 1 月發布了更新版的臨床決策支援指引。前一版是 2022 年的，對 AI 系統有很多繁瑣的要求。新版本明顯更加前瞻性，對 AI 在臨床決策支援中的角色採取了更開放的態度。Asawa 認為，這代表法規環境正在從「防堵」轉向「引導」，監管機構開始認識到 AI 在改善病人安全和照護品質上的潛力。

這並不代表法規不重要或可以忽略。相反，Abridge 投入了大量資源確保合規性，從資料去識別化到部署流程都有嚴格的標準。但 Asawa 的重點是，法規不再是阻止你做事的壁壘，而是在為 AI 的合理應用鋪路。

最難的 AI 問題會在這裡先被解決

訪談接近尾聲時，Lee 分享了一個讓她自己都意外的觀察。她原本以為，醫療會是 AI 創新的最後一站。畢竟標準那麼高、風險那麼大、評估那麼複雜，其他產業的 AI 應用一定會先成熟，然後醫療才慢慢跟上。

但她現在的看法完全相反。正因為醫療對準確度的要求如此嚴苛，那些在其他產業可以「先做到 80% 再說」的問題，在醫療場景中必須被真正解決。零容錯的評估框架、多步驟的複雜工作流程、人機協作的最佳實踐，這些方法論被迫在最嚴苛的環境中鍛造出來。而一旦在醫療場景中被驗證有效，它們很可能會回過頭來影響整個 AI 產業。

Asawa 也從技術的角度呼應了這個觀點。他指出，過去業界對醫療科技公司有一種偏見，認為它們「技術上不那麼有趣」。但事實上，在即時對話中提供高品質、低延遲的臨床決策支援，同時確保成本可控和隱私合規，這本身就是一個極其困難且有趣的工程問題。它涉及模型選擇策略、資料飛輪設計、事件驅動架構、多 agent 協作、衝突解決機制（他甚至提到了 CRDT，一種用於分散式系統的資料結構），複雜程度不亞於任何前沿的 AI 基礎架構挑戰。

對於正在構建 AI 產品的開發者來說，Abridge 的經驗或許提供了一個值得思考的框架：不是把嚴格的評估和漸進式部署視為拖慢速度的累贅，而是把它們視為在複雜環境中建立持久信任的投資。速度很重要，但在高風險場景中，可靠性才是真正的競爭優勢。