AI 安全與治理

醫院該怎麼買 AI？杜克大學團隊整理的 8 個關鍵決策點

美國 75% 醫療體系已導入 AI，但多數機構缺乏系統化的採購與導入框架。杜克大學主導的 Health AI Partnership 提出 8 個關鍵決策點，涵蓋從問題辨識到系統退役的完整生命週期，值得所有正在考慮導入 AI 的醫療機構參考。

2026 年 5 月 20 日 · 來源： Health AI Partnership

2026 年，美國已有 75% 的醫療體系導入至少一項 AI 應用，比 2025 年的 59% 大幅成長。但數字漂亮不代表結果漂亮。臨床筆記自動生成是目前最普遍的應用，採用率達到 68%，聽起來很成熟。然而同一份調查也顯示，72% 的醫院認為工作流整合是最大障礙，68% 表示領導層方向不明確。也就是說，多數醫院買了 AI，卻不太確定自己買了什麼、該怎麼用、出了問題誰負責。

杜克大學醫療體系（Duke Health）主導的 Health AI Partnership（以下簡稱 HAIP）看到了這個問題。HAIP 是一個由 35 家以上醫療機構、生態系夥伴和聯邦機構組成的多方利害關係人網路，花了數年時間整理出一套系統化框架：4 個生命週期階段、8 個關鍵決策點，搭配 27 份最佳實踐指南。這套框架的價值不在於提出什麼驚天動地的新觀念，而在於把那些「大家都知道很重要，但從來沒有人整理清楚」的步驟，變成一份可操作的路線圖。

第一階段：採購，先搞清楚你要解決什麼問題

HAIP 把 AI 導入的第一個階段叫做「採購」，聽起來很直覺，但它要求醫院做的第一件事，卻是多數人會跳過的步驟。

第一個決策點是「辨識並排序問題」。很多醫院的 AI 採購流程是倒過來的：先在展覽上看到一套漂亮的系統，覺得很酷，然後回去找一個問題來套。HAIP 要求的順序恰好相反。先從臨床端和營運端蒐集需求，廣泛聽取不同職位的人員意見，再把這些問題排出優先順序。更關鍵的是，要評估 AI 是否能解決問題的根本原因，而不只是處理表面症狀。一套能自動產生病歷摘要的 AI 或許能讓醫師少花 15 分鐘打字，但如果真正的問題是病歷系統本身設計不良，那這筆投資只是在一個爛系統上面貼 OK 繃。

第二個決策點是「定義 AI 產品範圍與預期用途」。確認了問題之後，接下來要釐清 AI 在這個場景中到底該做什麼、不該做什麼。HAIP 建議醫院在這一步回答幾個問題：我們有能力消化這項新技術嗎？應該自己開發還是外購？廠商的產品品質怎麼驗證？法律風險如何評估？投資流程有沒有經過合理的審計？這些問題看似基本，但現實中太多醫院是在簽完合約之後才開始問。

第二階段：開發，實驗室表現好不代表臨床能用

買到產品之後（或決定自行開發之後），挑戰才真正開始。HAIP 在開發階段放了三個決策點，每一個都直指醫療 AI 導入最常翻車的環節。

第三個決策點是「制定成功指標」。什麼叫做 AI 導入成功？不能只看模型在實驗室裡的準確率。HAIP 要求醫院同時定義兩組標準：一組是技術效能目標，例如敏感度、特異度這類傳統指標；另一組是真實世界的成功標準，例如臨床結果有沒有改善、護理師的工作負擔有沒有增加、病人的滿意度有沒有變化。很多 AI 產品在技術指標上表現亮眼，但部署到真實環境後完全是另一回事。如果沒有事先定義好「成功長什麼樣子」，最後就會變成各說各話。

第四個決策點是「設計 AI 工作流」。這一步是整個框架最容易被低估的環節。多數 AI 廠商會提供一套「理想工作流」，但醫院的臨床流程千差萬別，護理站的動線、醫師看診的節奏、資訊系統的介面，每家都不一樣。HAIP 建議透過反覆迭代測試來設計面向臨床人員的工作流，同時修改現有的營運架構來配合 AI 整合。重點是「AI 去適應人」，而不是「人去適應 AI」。

第五個決策點是「產出安全性、有效性與公平性的證據」。在地驗證是這一步的核心。一個在 A 醫院資料集上訓練出來的模型，搬到 B 醫院可能表現大幅下滑，因為病患群體的疾病分布不同、臨床紀錄的書寫習慣不同、甚至連資料格式都不一樣。HAIP 強調要在本院環境中做驗證研究、辨識可預見的風險、規劃風險減緩措施，最後做出「整合」或「拒絕」的決定。沒錯，拒絕也是一個正當的結論。

第三階段：整合，上線不是按一個按鈕

第六個決策點是「執行 AI 系統上線」。到了這一步，很多管理者以為最難的部分已經過去了。HAIP 的看法恰好相反。上線牽涉到三件同等重要的事：與臨床人員充分溝通（不是發一封公告信就算了）、管理工作場所的變革阻力，以及建立防護措施，防止使用者把 AI 用在未經驗證的場景上。

最後一點在醫療領域特別重要。一套被核准用於辨識肺結節的 AI 系統，如果醫師開始拿它來看肝臟腫瘤，那就是「標籤外使用」。在藥物領域，標籤外使用至少還有醫師的專業判斷作為後盾；在 AI 領域，標籤外使用的風險是模型在訓練範圍之外的表現完全不可預測。HAIP 建議在系統設計層面就建立這些防護欄，而不是靠行政命令去約束。

第四階段：生命週期管理，導入之後才是真正的開始

第七個決策點是「監控 AI 系統」。上線之後，模型的表現會隨著時間變化。病患群體的組成在改變、臨床指引在更新、甚至連季節都會影響某些疾病的發生率。如果沒有持續追蹤效能、定期稽核、辨識新風險，一套原本好用的系統可能在不知不覺中變成一套危險的系統。HAIP 建議把監控機制嵌入日常營運流程，而不是當作每年一次的例行公事。

第八個決策點是「更新或退役 AI 系統」。這是最少人討論、卻可能最重要的環節。什麼時候應該更新模型？什麼時候應該直接關機？如果決定退役，怎麼把對臨床工作流的衝擊降到最低？怎麼跟已經習慣這套系統的醫護人員溝通？HAIP 認為，退役計畫不該是出了問題才臨時擬定的危機處理，而是從採購階段就應該開始規劃的標準流程。

我的觀察

臺灣的醫療院所這兩年也在積極擁抱 AI，從病歷摘要到影像判讀、從急診分流到用藥建議，各大醫學中心都有導入案例。但從我觀察到的情況來看，多數導入還停留在「科別層級的點狀試驗」，缺乏像 HAIP 這樣橫跨整個組織的系統化框架。

HAIP 框架最值得臺灣參考的一點，是它把「退場機制」放在和「採購評估」同等重要的位置。我們很擅長討論「該買什麼 AI」，但幾乎不討論「買了之後怎麼管」以及「什麼時候該停用」。考慮到臺灣醫療體系的特性（健保給付制度、醫院評鑑壓力、資訊系統整合度），一套適合臺灣的醫療 AI 導入框架，絕對有其必要。