員工瘋狂「刷 Token」衝排名:Amazon 被迫關閉 AI 排行榜的荒謬啟示

Amazon 關閉了內部 AI 使用排行榜 KiroRank,因為員工指派代理人執行無意義任務只為衝高分數。同一週,Simon Willison 揭露自己 30 天燒掉 2,180 美元 Token 卻只付 200 美元訂閱費,解釋了為何 Anthropic 和 OpenAI 都在改變企業定價。

員工瘋狂「刷 Token」衝排名:Amazon 被迫關閉 AI 排行榜的荒謬啟示

本文整理自 Tech Brew Ride Home 2026 年 5 月 29 日播出的單集。


當 AI 使用量變成 KPI,荒謬就開始了

Amazon 本週關閉了一個叫做 KiroRank 的內部排行榜。這個工具原本的設計意圖很單純:追蹤員工在 Kiro(Amazon 的內部 AI 開發平台)上的使用活躍度,用分數排名鼓勵大家多用 AI 工具。但結果完全走偏了。員工開始指派 AI 代理人去執行毫無意義的任務,純粹是為了把自己的排名往上衝。Amazon 資深副總裁 Dave Treadwell 本週直接跟員工說:「請不要為了用 AI 而用 AI。」

這件事荒謬的地方在於,它不是個案。金融時報報導,Meta 內部也出現了類似的行為,員工想辦法灌高自己在內部排行榜上的 Token 消耗量。而 Amazon 的背景脈絡更值得注意:公司設定了「超過 80% 的開發者必須每週使用 AI」的目標。當你把一個行為目標變成 KPI,人們就會找到最省力的方式去達標,而不是真正改變工作方式。

Treadwell 承認 KiroRank 是「出於好意建立的」,但結果是「Token 灌水」(token maxing)直接增加了 Amazon 的基礎設施成本。每一次 AI 代理人執行任務都需要算力,員工為了排名而觸發的無用運算,全部計入 Amazon 的營運開支。這就像公司發了健身房補助鼓勵員工運動,結果大家只是去刷門禁卡然後立刻離開。

Simon Willison 的帳單:一個人 30 天燒掉 2,180 美元 Token

同一週,開發者部落客 Simon Willison 發了一篇文章,從另一個角度揭示了 AI 工具的 Token 經濟學。他用 Anthropic 的帳單追蹤工具查了自己過去 30 天的消耗:Claude Code 燒了 1,199.79 美元的 Token,OpenAI Codex 燒了 980.37 美元,總共 2,180.16 美元。而他為這些使用付了多少錢?每家 100 美元的月訂閱費,合計 200 美元。

這個數字揭示了一個巨大的商業矛盾。Willison 自認是「中度重度使用者」,不是那種 24 小時跑代理人的極端案例。但他一個人就讓 Anthropic 和 OpenAI 各虧了上千美元。乘以數百萬的訂閱者,這個缺口就是天文數字。Willison 的結論很直接:這就是為什麼兩家公司都在改定價模式。

Anthropic 大約在 2025 年 11 月把企業方案從「每席位 20 美元月費含合理使用量」改成了「月費加 API 用量計費」。OpenAI 在 2026 年 4 月做了同樣的事。現有客戶是在續約時才發現規則變了。這不是巧合,而是兩家公司都意識到同一件事:Coding Agent 終於讓它們找到了真正的 Product-Market Fit,但也讓固定訂閱制變得完全不可持續。

ChatGPT 九億週活只是「還行的生意」

Willison 文章中最尖銳的觀察是關於 ChatGPT 的。OpenAI 宣稱 ChatGPT 有超過九億週活躍使用者,但只有約五千萬人付費,轉換率 5.6%。每人每月收 10 到 20 美元,的確是一門生意,但 Willison 算了一筆帳:如果要靠這個收入模式回收一兆美元的基礎設施投資,你需要 10 到 20 億訂閱者持續付費四年。這在人口數學上幾乎不可能。

Coding Agent 改變了這個等式。一個軟體工程師每月薪資可能超過兩萬美元,如果 AI 工具能為他省下 30% 的時間,公司很樂意每月多付 200 甚至 1,000 美元。這些高薪專業人士不只付得起更高的月費,他們的使用模式也天然地消耗大量 Token。一個代理人跑一個小時的重構任務,可能就燒掉普通聊天使用者一整個月的量。Willison 認為,Coding Agent 是 AI 實驗室真正的突破性產品,不是因為技術最先進,而是因為它終於對準了一群願意且有能力大量付費的客群。

這也解釋了為什麼 Anthropic 和 OpenAI 都在為 IPO 做準備。當你能向投資人展示「企業客戶每月付 200 美元以上,而且用量持續成長」的曲線,比起「九億人用免費版,五千萬人付 20 美元」的故事,前者顯然更能支撐兆元估值。

我的觀察:Amazon 的失敗和 Willison 的帳單是同一個故事的兩面

表面上看,Amazon 關閉排行榜和 Willison 的 Token 分析是兩個不相干的新聞。但它們其實是同一個結構性轉變的正反面:企業正在搞清楚 AI 的真實成本結構,而這個過程充滿了試錯。

Amazon 的錯誤在於把「使用量」當成「價值」的代理指標。更多 Token 消耗不等於更高生產力,就像更多程式碼行數不等於更好的軟體。但反過來說,Willison 的經驗顯示,對真正會用的人來說,每月 2,000 美元的 Token 消耗確實對應著實質的工作產出。差別在於,那些 Token 是被有目的地使用,還是被拿來刷數字。

更深層的問題是:當 AI 從「偶爾用一下的助手」變成「每天高強度消耗的生產工具」,整個軟體產業的成本結構都要重新計算。過去你付工程師薪水,他用自己的腦子和手指產出程式碼。現在你付工程師薪水,再加上每月數百到數千美元的 AI Token 費用,他的產出可能是原來的五倍。這個交易值不值得?對多數公司來說,答案顯然是值得的。但前提是那些 Token 真的被用在有意義的事情上,而不是被拿來衝排行榜。