醫院該怎麼買 AI?杜克大學團隊整理的 8 個關鍵決策點
美國 75% 醫療體系已導入 AI,但多數機構缺乏系統化的採購與導入框架。杜克大學主導的 Health AI Partnership 提出 8 個關鍵決策點,涵蓋從問題辨識到系統退役的完整生命週期,值得所有正在考慮導入 AI 的醫療機構參考。

2026 年,美國已有 75% 的醫療體系導入至少一項 AI 應用,比 2025 年的 59% 大幅成長。但數字漂亮不代表結果漂亮。臨床筆記自動生成是目前最普遍的應用,採用率達到 68%,聽起來很成熟。然而同一份調查也顯示,72% 的醫院認為工作流整合是最大障礙,68% 表示領導層方向不明確。也就是說,多數醫院買了 AI,卻不太確定自己買了什麼、該怎麼用、出了問題誰負責。
杜克大學醫療體系(Duke Health)主導的 Health AI Partnership(以下簡稱 HAIP)看到了這個問題。HAIP 是一個由 35 家以上醫療機構、生態系夥伴和聯邦機構組成的多方利害關係人網路,花了數年時間整理出一套系統化框架:4 個生命週期階段、8 個關鍵決策點,搭配 27 份最佳實踐指南。這套框架的價值不在於提出什麼驚天動地的新觀念,而在於把那些「大家都知道很重要,但從來沒有人整理清楚」的步驟,變成一份可操作的路線圖。
第一階段:採購,先搞清楚你要解決什麼問題
HAIP 把 AI 導入的第一個階段叫做「採購」,聽起來很直覺,但它要求醫院做的第一件事,卻是多數人會跳過的步驟。
第一個決策點是「辨識並排序問題」。很多醫院的 AI 採購流程是倒過來的:先在展覽上看到一套漂亮的系統,覺得很酷,然後回去找一個問題來套。HAIP 要求的順序恰好相反。先從臨床端和營運端蒐集需求,廣泛聽取不同職位的人員意見,再把這些問題排出優先順序。更關鍵的是,要評估 AI 是否能解決問題的根本原因,而不只是處理表面症狀。一套能自動產生病歷摘要的 AI 或許能讓醫師少花 15 分鐘打字,但如果真正的問題是病歷系統本身設計不良,那這筆投資只是在一個爛系統上面貼 OK 繃。
第二個決策點是「定義 AI 產品範圍與預期用途」。確認了問題之後,接下來要釐清 AI 在這個場景中到底該做什麼、不該做什麼。HAIP 建議醫院在這一步回答幾個問題:我們有能力消化這項新技術嗎?應該自己開發還是外購?廠商的產品品質怎麼驗證?法律風險如何評估?投資流程有沒有經過合理的審計?這些問題看似基本,但現實中太多醫院是在簽完合約之後才開始問。
第二階段:開發,實驗室表現好不代表臨床能用
買到產品之後(或決定自行開發之後),挑戰才真正開始。HAIP 在開發階段放了三個決策點,每一個都直指醫療 AI 導入最常翻車的環節。
第三個決策點是「制定成功指標」。什麼叫做 AI 導入成功?不能只看模型在實驗室裡的準確率。HAIP 要求醫院同時定義兩組標準:一組是技術效能目標,例如敏感度、特異度這類傳統指標;另一組是真實世界的成功標準,例如臨床結果有沒有改善、護理師的工作負擔有沒有增加、病人的滿意度有沒有變化。很多 AI 產品在技術指標上表現亮眼,但部署到真實環境後完全是另一回事。如果沒有事先定義好「成功長什麼樣子」,最後就會變成各說各話。
第四個決策點是「設計 AI 工作流」。這一步是整個框架最容易被低估的環節。多數 AI 廠商會提供一套「理想工作流」,但醫院的臨床流程千差萬別,護理站的動線、醫師看診的節奏、資訊系統的介面,每家都不一樣。HAIP 建議透過反覆迭代測試來設計面向臨床人員的工作流,同時修改現有的營運架構來配合 AI 整合。重點是「AI 去適應人」,而不是「人去適應 AI」。
第五個決策點是「產出安全性、有效性與公平性的證據」。在地驗證是這一步的核心。一個在 A 醫院資料集上訓練出來的模型,搬到 B 醫院可能表現大幅下滑,因為病患群體的疾病分布不同、臨床紀錄的書寫習慣不同、甚至連資料格式都不一樣。HAIP 強調要在本院環境中做驗證研究、辨識可預見的風險、規劃風險減緩措施,最後做出「整合」或「拒絕」的決定。沒錯,拒絕也是一個正當的結論。
第三階段:整合,上線不是按一個按鈕
第六個決策點是「執行 AI 系統上線」。到了這一步,很多管理者以為最難的部分已經過去了。HAIP 的看法恰好相反。上線牽涉到三件同等重要的事:與臨床人員充分溝通(不是發一封公告信就算了)、管理工作場所的變革阻力,以及建立防護措施,防止使用者把 AI 用在未經驗證的場景上。
最後一點在醫療領域特別重要。一套被核准用於辨識肺結節的 AI 系統,如果醫師開始拿它來看肝臟腫瘤,那就是「標籤外使用」。在藥物領域,標籤外使用至少還有醫師的專業判斷作為後盾;在 AI 領域,標籤外使用的風險是模型在訓練範圍之外的表現完全不可預測。HAIP 建議在系統設計層面就建立這些防護欄,而不是靠行政命令去約束。
第四階段:生命週期管理,導入之後才是真正的開始
第七個決策點是「監控 AI 系統」。上線之後,模型的表現會隨著時間變化。病患群體的組成在改變、臨床指引在更新、甚至連季節都會影響某些疾病的發生率。如果沒有持續追蹤效能、定期稽核、辨識新風險,一套原本好用的系統可能在不知不覺中變成一套危險的系統。HAIP 建議把監控機制嵌入日常營運流程,而不是當作每年一次的例行公事。
第八個決策點是「更新或退役 AI 系統」。這是最少人討論、卻可能最重要的環節。什麼時候應該更新模型?什麼時候應該直接關機?如果決定退役,怎麼把對臨床工作流的衝擊降到最低?怎麼跟已經習慣這套系統的醫護人員溝通?HAIP 認為,退役計畫不該是出了問題才臨時擬定的危機處理,而是從採購階段就應該開始規劃的標準流程。
我的觀察
臺灣的醫療院所這兩年也在積極擁抱 AI,從病歷摘要到影像判讀、從急診分流到用藥建議,各大醫學中心都有導入案例。但從我觀察到的情況來看,多數導入還停留在「科別層級的點狀試驗」,缺乏像 HAIP 這樣橫跨整個組織的系統化框架。
HAIP 框架最值得臺灣參考的一點,是它把「退場機制」放在和「採購評估」同等重要的位置。我們很擅長討論「該買什麼 AI」,但幾乎不討論「買了之後怎麼管」以及「什麼時候該停用」。考慮到臺灣醫療體系的特性(健保給付制度、醫院評鑑壓力、資訊系統整合度),一套適合臺灣的醫療 AI 導入框架,絕對有其必要。