從 Epic 敗血症模型的教訓,看醫療 AI 的退場機制

Epic 的敗血症預測模型曾被數百家醫院採用,卻漏掉 67% 的敗血症患者。這個案例凸顯了醫療 AI 導入後最被忽略的環節:持續監控與退場機制。從 HAIP 框架到 FDA 新規,醫療 AI 的生命週期管理正成為產業必修課。

從 Epic 敗血症模型的教訓,看醫療 AI 的退場機制

每一場關於醫療 AI 的討論,談的都是「怎麼買」和「怎麼用」。該選哪家廠商?模型準確率多高?導入之後效率能提升多少?但幾乎沒有人在問另一組同樣重要的問題:上線之後誰負責監控?效能衰退了怎麼辦?什麼時候該把這套系統關掉?

這不是杞人憂天。Epic 的敗血症預測模型(Epic Sepsis Model)就是一個被寫進教科書的慘痛案例,它告訴我們,一套 AI 系統被大規模採用,不代表它真的有效,更不代表有人在盯著它。

被數百家醫院採用、卻漏掉三分之二病人的 AI

Epic 在 2017 年推出了敗血症預測模型,內建在其電子病歷系統(EHR)中。由於 Epic 在美國醫院市場的市占率極高,這套模型迅速被約 180 個醫療體系客戶採用,涵蓋數百家醫院。聽起來是一個成功的規模化案例。

但密西根大學(University of Michigan)的研究團隊做了一件多數採用醫院沒有做的事:他們拿自家的臨床資料,對這套模型做了獨立的外部驗證。結果令人震驚。模型在建議的閾值下,敏感度只有 33%,也就是說它漏掉了 67% 的敗血症患者。在那些被臨床醫師原本就遺漏的敗血症病例中,模型也只能額外識別出 7%。與此同時,它對 18% 的住院病人都觸發了警報,醫師平均需要審閱 109 個警報才能找到一個真正需要介入的病人。

這個案例最讓人不安的部分,不是模型本身的表現不好,而是問題被發現的方式。密西根大學的研究是在 2021 年發表的,距離模型上線已經過了四年。在這四年間,沒有任何採用醫院透過自身的監控機制發現問題。問題是靠外部學術驗證揭露的,而不是靠系統性的事後監控。

後來的分析還發現一個更根本的缺陷:模型的輸入變數中包含了「醫師是否已開立抗生素」。這是一個典型的資料洩漏(data leakage)問題,因為醫師開立抗生素這個行為本身就代表他已經在考慮感染的可能性。模型等於是在用「答案」來預測「問題」,預測性能因此被人為灌水。如果有系統化的事後監控流程,這個問題理應在部署初期就被抓到。

2025 年的醫療 AI 退役潮

Epic 的案例不是孤例。2025 年,美國醫療界出現了一波 AI 工具的退役潮。Becker's Hospital Review 整理了多家醫療體系的經驗,呈現出一個共同的模式:醫院在導入 AI 時投入大量資源,卻在營運管理和退場規劃上嚴重不足。

Nationwide Children's Hospital 被迫重啟了一套服務台聊天機器人。原因很具體:營運流程沒有配套到位,而且退出機制壞了。當使用者想要離開 AI 對話、轉接真人服務時,系統做不到這件事。結果是原本要提升效率的工具,反而製造了更差的使用者體驗。

FMOL Health 的決定更極端。他們在一套專業帳務編碼工具正式上線之前就終止了合約,理由是「實際導入的複雜度遠超過我們被告知的水準」。這不是技術問題,而是採購階段的評估不足,沒有在簽約前搞清楚這套系統要嵌入現有流程需要付出多大的代價。

Mahaska Health 的做法最徹底。這家醫療體系在 2025 年整個推翻了原本的 AI 策略,不再做孤立的、拼裝式的 AI 試點。他們意識到,零散地導入個別 AI 工具,不但沒有產生綜效,反而讓管理變得更複雜。

這些案例有一個共通點:問題不是出在 AI 技術本身,而是出在導入之後缺乏系統化的監控和管理機制。醫院花了很多心力決定「要不要導入」,卻幾乎沒有花時間想過「導入之後怎麼管」和「什麼時候該喊停」。

HAIP 框架的回應:把退場機制寫進標準流程

杜克大學主導的 Health AI Partnership(HAIP)在其 8 個關鍵決策點框架中,刻意把生命週期管理放在一個和採購評估同等重要的位置。框架的第四個階段叫做「生命週期管理」,包含兩個決策點。

第七個決策點是「監控 AI 系統」。HAIP 要求醫院建立四層監控機制:持續的效能追蹤、環境變化監測、定期稽核,以及風險辨識。這裡說的環境變化監測特別關鍵。AI 模型的表現不是固定的,它會隨著病患群體的改變、臨床指引的更新、甚至季節的變化而波動。如果沒有人在盯,一套原本準確的系統可能在幾個月內悄悄變成一套危險的系統,而使用它的醫護人員完全不知道。Epic 敗血症模型的故事就是這個風險的最佳註解。

第八個決策點是「更新或退役 AI 系統」。HAIP 在這裡要求醫院回答一系列問題:模型的表現有沒有跌破可接受的門檻?修改模型需要付出多大的代價?如果決定退役,要怎麼調整工作流讓臨床端的衝擊最小?有沒有擴展到其他場景的機會?怎麼跟已經習慣這套系統的醫護人員溝通?

這些問題的價值在於,它們迫使醫院在系統還在正常運作的時候就開始思考退場方案,而不是等到出了事才手忙腳亂。HAIP 的立場很明確:退役計畫應該在採購階段就開始規劃,跟系統的導入計畫同步進行。

FDA 的監管回應:從「一次性核准」走向「全生命週期」

監管機構也意識到了這個問題。美國食品藥物管理局(FDA)在過去兩年做了幾件重要的事,把醫療 AI 的監管從傳統的「上市前核准」模式,推向「全產品生命週期」(Total Product Lifecycle, TPLC)的新範式。

2025 年初,FDA 發布了 AI/ML 醫療軟體的全產品生命週期管理草案,首次把上市後的資料品質、演算法透明度和變更管理納入正式的監管框架。這代表 FDA 不再只看 AI 產品送審時的表現,而是要求廠商和醫療機構在產品的整個使用壽命中持續證明它是安全有效的。

另一個關鍵機制是「預定變更控制計畫」(Predetermined Change Control Plan, PCCP)。FDA 在 2025 年 8 月發布的最終指引中,允許 AI 醫療器材的製造商在事先核准的範圍內更新演算法,不需要每次都重新送審。條件是這些變更必須維持或改善產品的安全性和有效性,而且不能超出原本的預期用途。這個機制的設計邏輯很清楚:AI 模型本來就需要定期更新,如果每次更新都要走完整的審查流程,產品會永遠跟不上臨床環境的變化。

FDA 還和加拿大衛生部(Health Canada)及英國藥品和醫療產品監管局(MHRA)聯合提出了 PCCP 的五大指導原則:聚焦(限定在明確可驗證的修改範圍)、風險導向(以病人安全為核心)、實證(有適當的資料和驗證支持)、透明(向監管機構和利害關係人清楚揭露)、生命週期導向(在持續監管下推動創新)。這五個原則的共同主軸是:AI 產品不是賣出去就結束了,廠商和使用機構對它的安全有效性負有持續性的責任。

我的觀察

臺灣的醫療 AI 監管目前主要由衛福部食藥署(TFDA)負責,近年也核准了不少 AI 醫材。但從我的觀察來看,國內的討論仍然集中在「上市前審查」,對於上市後的持續監控和退場機制,不管是法規面還是實務面,都還有很大的空白。

這不只是法規的問題,也是觀念的問題。臺灣的醫院在採購 AI 系統時,合約中有沒有寫清楚效能監控的責任歸屬?有沒有定義什麼條件下可以終止合約?退役的時候資料怎麼處理?這些問題在美國已經開始被系統化地討論,在臺灣可能連問都還沒有人問。

Epic 敗血症模型的故事給了我們一個很清楚的提醒:AI 的危險不在於它不準,而在於它不準的時候沒有人知道。建立監控和退場機制的成本,遠低於一場醫療事故的代價。