AI 產業動態

員工瘋狂「刷 Token」衝排名：Amazon 被迫關閉 AI 排行榜的荒謬啟示

Amazon 關閉了內部 AI 使用排行榜 KiroRank，因為員工指派代理人執行無意義任務只為衝高分數。同一週，Simon Willison 揭露自己 30 天燒掉 2,180 美元 Token 卻只付 200 美元訂閱費，解釋了為何 Anthropic 和 OpenAI 都在改變企業定價。

2026 年 5 月 31 日 · 來源： Tech Brew Ride Home

員工瘋狂「刷 Token」衝排名：Amazon 被迫關閉 AI 排行榜的荒謬啟示

本文整理自 Tech Brew Ride Home 2026 年 5 月 29 日播出的單集。

當 AI 使用量變成 KPI，荒謬就開始了

Amazon 本週關閉了一個叫做 KiroRank 的內部排行榜。這個工具原本的設計意圖很單純：追蹤員工在 Kiro（Amazon 的內部 AI 開發平台）上的使用活躍度，用分數排名鼓勵大家多用 AI 工具。但結果完全走偏了。員工開始指派 AI 代理人去執行毫無意義的任務，純粹是為了把自己的排名往上衝。Amazon 資深副總裁 Dave Treadwell 本週直接跟員工說：「請不要為了用 AI 而用 AI。」

這件事荒謬的地方在於，它不是個案。金融時報報導，Meta 內部也出現了類似的行為，員工想辦法灌高自己在內部排行榜上的 Token 消耗量。而 Amazon 的背景脈絡更值得注意：公司設定了「超過 80% 的開發者必須每週使用 AI」的目標。當你把一個行為目標變成 KPI，人們就會找到最省力的方式去達標，而不是真正改變工作方式。

Treadwell 承認 KiroRank 是「出於好意建立的」，但結果是「Token 灌水」（token maxing）直接增加了 Amazon 的基礎設施成本。每一次 AI 代理人執行任務都需要算力，員工為了排名而觸發的無用運算，全部計入 Amazon 的營運開支。這就像公司發了健身房補助鼓勵員工運動，結果大家只是去刷門禁卡然後立刻離開。

Simon Willison 的帳單：一個人 30 天燒掉 2,180 美元 Token

同一週，開發者部落客 Simon Willison 發了一篇文章，從另一個角度揭示了 AI 工具的 Token 經濟學。他用 Anthropic 的帳單追蹤工具查了自己過去 30 天的消耗：Claude Code 燒了 1,199.79 美元的 Token，OpenAI Codex 燒了 980.37 美元，總共 2,180.16 美元。而他為這些使用付了多少錢？每家 100 美元的月訂閱費，合計 200 美元。

這個數字揭示了一個巨大的商業矛盾。Willison 自認是「中度重度使用者」，不是那種 24 小時跑代理人的極端案例。但他一個人就讓 Anthropic 和 OpenAI 各虧了上千美元。乘以數百萬的訂閱者，這個缺口就是天文數字。Willison 的結論很直接：這就是為什麼兩家公司都在改定價模式。

Anthropic 大約在 2025 年 11 月把企業方案從「每席位 20 美元月費含合理使用量」改成了「月費加 API 用量計費」。OpenAI 在 2026 年 4 月做了同樣的事。現有客戶是在續約時才發現規則變了。這不是巧合，而是兩家公司都意識到同一件事：Coding Agent 終於讓它們找到了真正的 Product-Market Fit，但也讓固定訂閱制變得完全不可持續。

ChatGPT 九億週活只是「還行的生意」

Willison 文章中最尖銳的觀察是關於 ChatGPT 的。OpenAI 宣稱 ChatGPT 有超過九億週活躍使用者，但只有約五千萬人付費，轉換率 5.6%。每人每月收 10 到 20 美元，的確是一門生意，但 Willison 算了一筆帳：如果要靠這個收入模式回收一兆美元的基礎設施投資，你需要 10 到 20 億訂閱者持續付費四年。這在人口數學上幾乎不可能。

Coding Agent 改變了這個等式。一個軟體工程師每月薪資可能超過兩萬美元，如果 AI 工具能為他省下 30% 的時間，公司很樂意每月多付 200 甚至 1,000 美元。這些高薪專業人士不只付得起更高的月費，他們的使用模式也天然地消耗大量 Token。一個代理人跑一個小時的重構任務，可能就燒掉普通聊天使用者一整個月的量。Willison 認為，Coding Agent 是 AI 實驗室真正的突破性產品，不是因為技術最先進，而是因為它終於對準了一群願意且有能力大量付費的客群。

這也解釋了為什麼 Anthropic 和 OpenAI 都在為 IPO 做準備。當你能向投資人展示「企業客戶每月付 200 美元以上，而且用量持續成長」的曲線，比起「九億人用免費版，五千萬人付 20 美元」的故事，前者顯然更能支撐兆元估值。

我的觀察：Amazon 的失敗和 Willison 的帳單是同一個故事的兩面

表面上看，Amazon 關閉排行榜和 Willison 的 Token 分析是兩個不相干的新聞。但它們其實是同一個結構性轉變的正反面：企業正在搞清楚 AI 的真實成本結構，而這個過程充滿了試錯。

Amazon 的錯誤在於把「使用量」當成「價值」的代理指標。更多 Token 消耗不等於更高生產力，就像更多程式碼行數不等於更好的軟體。但反過來說，Willison 的經驗顯示，對真正會用的人來說，每月 2,000 美元的 Token 消耗確實對應著實質的工作產出。差別在於，那些 Token 是被有目的地使用，還是被拿來刷數字。

更深層的問題是：當 AI 從「偶爾用一下的助手」變成「每天高強度消耗的生產工具」，整個軟體產業的成本結構都要重新計算。過去你付工程師薪水，他用自己的腦子和手指產出程式碼。現在你付工程師薪水，再加上每月數百到數千美元的 AI Token 費用，他的產出可能是原來的五倍。這個交易值不值得？對多數公司來說，答案顯然是值得的。但前提是那些 Token 真的被用在有意義的事情上，而不是被拿來衝排行榜。