領袖思維

34 次績效改革全部失敗：為什麼 KPI 永遠抓不住真正重要的工作？

密西根大學教授馬丁·威廉斯花了十年，研究六國、131 次公務體系改革。其中 34 次嘗試建立績效獎懲制度，成功率是零。原因不是執行不力，而是真正重要的工作，像是創新、協調、臨機應變，根本無法被 KPI 捕捉。這個發現挑戰了所有仰賴量化指標管理的組織。

2026 年 5 月 30 日 · 來源： VoxDev Talks

本文整理自《VoxDev Talks》2026 年 5 月播出的單集。

{{< apple-podcast "tw/podcast/why-civil-service-reform-fails-and-what-actually-works/id1434282974?i=1000769789632" >}}

零。

六個國家、三十年歷史、34 次嘗試建立績效獎懲制度，最終成功持續落實的次數是零。這不是隨口說的數字。密西根大學組織研究副教授馬丁·威廉斯（Martin Williams）花了超過十年，從迦納文官體系的第一線開始，逐步將研究範圍擴大到迦納、肯亞、奈及利亞、塞內加爾、南非、尚比亞六個國家，總共追蹤了 131 次系統性的公務體系改革。這些改革中有 34 次是專門設計來把「表現好壞」跟「獎金或懲罰」掛鉤的制度。結果沒有任何一次成功地將差異化的獎懲持續落實到位。不是「大多數失敗」，是全部。

威廉斯把這段研究寫成了新書《Reform as Process》，今年二月由哥倫比亞大學出版社出版，而且是開放取用的，任何人都能免費下載。他在最近一集 VoxDev Talks 的訪談中，詳細拆解了這個令人不安的數字背後的邏輯。

不是執行不力，是根本方向錯了

面對 0/34 這個數字，直覺反應通常是：一定是執行出了問題。預算不夠、主管不配合、制度設計不夠精細。威廉斯在訪談中直言，這種想法才是問題所在。每一個失敗的案例都有自己獨特的「表面原因」，但當你把 34 個案例擺在一起看，就會發現一個共同的根本問題：真正讓一個組織運作良好的那些事情，根本無法被寫進 KPI。

他用經濟學中「可驗證性」（verifiability）的概念來解釋。在任何僱用關係中，有些任務是「可驗證的」，第三方可以客觀判斷你有沒有做到，例如準時出勤、完成指定報告、達成銷售數字。但還有大量任務是「不可驗證的」，包括創新思考、臨機應變、跨部門主動協調、用法規的精神而非條文來服務民眾。這些事情沒有辦法讓任何稽核員或法官來判定「這個人做得好不好」，因為好不好的標準本身就是主觀的、情境化的、無法事前定義的。

問題的核心在於，恰恰是這些「不可驗證的任務」決定了一個組織到底運作得好不好。一個公務員照章辦事、準時打卡、KPI 全部達標，但他從來不思考制度能不能改善、不主動協調跨單位的灰色地帶、遇到法規沒有覆蓋的情境就兩手一攤。這樣的人在任何績效指標上都是「優秀」的，卻完全沒有為組織創造真正的價值。當整個績效制度只能捕捉到可驗證的部分，它不只是「不完整」而已，它還會主動壓抑那些不可驗證、卻真正決定組織成敗的行為。

績效制度如何退化成「打勾遊戲」

那在實際操作中，這些績效制度是怎麼一步步走向失敗的？威廉斯觀察到一個反覆出現的模式。

主管們其實心知肚明，很多重要的工作沒辦法用數字衡量。如果嚴格按照 KPI 來評分、發獎金，那些「不在指標上但很重要」的工作就沒人做了。所以他們通常會做兩件事其中之一：把目標設得很低，低到所有人都一定達標；或者年底給所有人打一樣的分數，不管實際表現有多大差異。這不是偷懶，而是一種理性的應對。因為一旦他們試圖「嚴格執行」差異化考核，卻拿不出客觀證據來區分誰做得好、誰做得差，引發的爭議和士氣打擊反而比不考核更糟。

結果就是，一套精心設計的績效獎懲制度，花了大量時間和資源去建立，最終變成了一場「打勾遊戲」。每個人照例填表、照例接受評核、照例拿到差不多的成績，但整個過程沒有改變任何人的行為。威廉斯特別提到學術研究和實際落地之間的巨大鴻溝：經濟學家在實驗室或受控條件下測試績效誘因，通常能看到效果。但在大規模的真實組織中，「誘因根本沒有被送達」才是常態。不是激勵機制的設計有問題，而是它從來沒有按照設計被執行過。

威廉斯強調，這 34 次全部失敗的紀錄不應該被視為特殊案例或巧合。他在學術文獻和世界各地的公務體系中，都看到了同樣的模式。這表示問題不在某個國家的特殊情境，而在績效獎懲制度這個概念本身，在面對大型組織中大量不可驗證任務時，有一個結構性的盲點。

對所有管理者的警示

這個研究表面上是在講公務體系，但它挑戰的是一個更普遍的管理信念：只要把指標設對、把獎懲掛上去，人的行為就會改變。這個信念在科技業、在新創圈、在任何使用 OKR 和 KPI 的組織裡都根深蒂固。但威廉斯的研究提出了一個不太舒服的問題：如果你衡量的只是工作中可量化的那一小部分，而忽略了不可量化但更重要的那一大部分，你的績效制度到底是在驅動好的行為，還是在壓抑它？

想想看：一個工程師主動重構沒人在意的底層程式碼、一個產品經理在會議中堅持替使用者發聲而不只是追求數字、一個主管花時間傾聽團隊的焦慮而不只是看進度報告。這些事情不會出現在任何季度考核表上，但它們是組織能否長期健康運作的關鍵。當制度只獎勵「可衡量的產出」，最先消失的往往就是這些「不可衡量的貢獻」。

如果你正在設計績效制度，或者正在用 KPI 來考核團隊，34 次嘗試、零次成功的紀錄值得認真看待。它不是在說績效管理不重要，而是在說，我們需要用完全不同的方式來思考「什麼叫做好的表現」。那些最重要的事情，往往就是你放不進試算表裡的東西。