34 次績效改革全部失敗:為什麼 KPI 永遠抓不住真正重要的工作?
密西根大學教授馬丁·威廉斯花了十年,研究六國、131 次公務體系改革。其中 34 次嘗試建立績效獎懲制度,成功率是零。原因不是執行不力,而是真正重要的工作,像是創新、協調、臨機應變,根本無法被 KPI 捕捉。這個發現挑戰了所有仰賴量化指標管理的組織。

本文整理自《VoxDev Talks》2026 年 5 月播出的單集。
{{< spotify "episode/1IpMDHNTHOM3FUaT6kKeo6" >}}
{{< apple-podcast "tw/podcast/why-civil-service-reform-fails-and-what-actually-works/id1434282974?i=1000769789632" >}}
零。
六個國家、三十年歷史、34 次嘗試建立績效獎懲制度,最終成功持續落實的次數是零。這不是隨口說的數字。密西根大學組織研究副教授馬丁·威廉斯(Martin Williams)花了超過十年,從迦納文官體系的第一線開始,逐步將研究範圍擴大到迦納、肯亞、奈及利亞、塞內加爾、南非、尚比亞六個國家,總共追蹤了 131 次系統性的公務體系改革。這些改革中有 34 次是專門設計來把「表現好壞」跟「獎金或懲罰」掛鉤的制度。結果沒有任何一次成功地將差異化的獎懲持續落實到位。不是「大多數失敗」,是全部。
威廉斯把這段研究寫成了新書《Reform as Process》,今年二月由哥倫比亞大學出版社出版,而且是開放取用的,任何人都能免費下載。他在最近一集 VoxDev Talks 的訪談中,詳細拆解了這個令人不安的數字背後的邏輯。
不是執行不力,是根本方向錯了
面對 0/34 這個數字,直覺反應通常是:一定是執行出了問題。預算不夠、主管不配合、制度設計不夠精細。威廉斯在訪談中直言,這種想法才是問題所在。每一個失敗的案例都有自己獨特的「表面原因」,但當你把 34 個案例擺在一起看,就會發現一個共同的根本問題:真正讓一個組織運作良好的那些事情,根本無法被寫進 KPI。
他用經濟學中「可驗證性」(verifiability)的概念來解釋。在任何僱用關係中,有些任務是「可驗證的」,第三方可以客觀判斷你有沒有做到,例如準時出勤、完成指定報告、達成銷售數字。但還有大量任務是「不可驗證的」,包括創新思考、臨機應變、跨部門主動協調、用法規的精神而非條文來服務民眾。這些事情沒有辦法讓任何稽核員或法官來判定「這個人做得好不好」,因為好不好的標準本身就是主觀的、情境化的、無法事前定義的。
問題的核心在於,恰恰是這些「不可驗證的任務」決定了一個組織到底運作得好不好。一個公務員照章辦事、準時打卡、KPI 全部達標,但他從來不思考制度能不能改善、不主動協調跨單位的灰色地帶、遇到法規沒有覆蓋的情境就兩手一攤。這樣的人在任何績效指標上都是「優秀」的,卻完全沒有為組織創造真正的價值。當整個績效制度只能捕捉到可驗證的部分,它不只是「不完整」而已,它還會主動壓抑那些不可驗證、卻真正決定組織成敗的行為。
績效制度如何退化成「打勾遊戲」
那在實際操作中,這些績效制度是怎麼一步步走向失敗的?威廉斯觀察到一個反覆出現的模式。
主管們其實心知肚明,很多重要的工作沒辦法用數字衡量。如果嚴格按照 KPI 來評分、發獎金,那些「不在指標上但很重要」的工作就沒人做了。所以他們通常會做兩件事其中之一:把目標設得很低,低到所有人都一定達標;或者年底給所有人打一樣的分數,不管實際表現有多大差異。這不是偷懶,而是一種理性的應對。因為一旦他們試圖「嚴格執行」差異化考核,卻拿不出客觀證據來區分誰做得好、誰做得差,引發的爭議和士氣打擊反而比不考核更糟。
結果就是,一套精心設計的績效獎懲制度,花了大量時間和資源去建立,最終變成了一場「打勾遊戲」。每個人照例填表、照例接受評核、照例拿到差不多的成績,但整個過程沒有改變任何人的行為。威廉斯特別提到學術研究和實際落地之間的巨大鴻溝:經濟學家在實驗室或受控條件下測試績效誘因,通常能看到效果。但在大規模的真實組織中,「誘因根本沒有被送達」才是常態。不是激勵機制的設計有問題,而是它從來沒有按照設計被執行過。
威廉斯強調,這 34 次全部失敗的紀錄不應該被視為特殊案例或巧合。他在學術文獻和世界各地的公務體系中,都看到了同樣的模式。這表示問題不在某個國家的特殊情境,而在績效獎懲制度這個概念本身,在面對大型組織中大量不可驗證任務時,有一個結構性的盲點。
對所有管理者的警示
這個研究表面上是在講公務體系,但它挑戰的是一個更普遍的管理信念:只要把指標設對、把獎懲掛上去,人的行為就會改變。這個信念在科技業、在新創圈、在任何使用 OKR 和 KPI 的組織裡都根深蒂固。但威廉斯的研究提出了一個不太舒服的問題:如果你衡量的只是工作中可量化的那一小部分,而忽略了不可量化但更重要的那一大部分,你的績效制度到底是在驅動好的行為,還是在壓抑它?
想想看:一個工程師主動重構沒人在意的底層程式碼、一個產品經理在會議中堅持替使用者發聲而不只是追求數字、一個主管花時間傾聽團隊的焦慮而不只是看進度報告。這些事情不會出現在任何季度考核表上,但它們是組織能否長期健康運作的關鍵。當制度只獎勵「可衡量的產出」,最先消失的往往就是這些「不可衡量的貢獻」。
如果你正在設計績效制度,或者正在用 KPI 來考核團隊,34 次嘗試、零次成功的紀錄值得認真看待。它不是在說績效管理不重要,而是在說,我們需要用完全不同的方式來思考「什麼叫做好的表現」。那些最重要的事情,往往就是你放不進試算表裡的東西。