AI 產業動態

月燒 15 萬美元 AI token，老闆還叫好？矽谷「Tokenmaxxing」排行榜內幕

《紐約時報》記者 Kevin Roose 揭露矽谷最新風潮：科技公司建立內部排行榜追蹤員工的 AI token 使用量。OpenAI 有工程師一週用掉 210 億 token，Claude Code 最重度使用者月花超過 15 萬美元。這股風潮正從科技業蔓延至其他產業，背後的矛盾與荒謬值得深思。

2026 年 3 月 25 日 · 來源： Hard Fork

月燒 15 萬美元 AI token，老闆還叫好？矽谷「Tokenmaxxing」排行榜內幕

本文整理自《Hard Fork》2026 年 3 月播出的單集。

{{< apple-podcast "tw/podcast/a-i-washing-layoffs-why-l-l-m-s-cant-write-well-tokenmaxxing/id1528594034?i=1000756315732" >}}

矽谷最近流行一種新型態的辦公室競賽。不是比誰寫的程式碼最多，不是比誰的 OKR 評分最高，而是比誰「燒掉」最多 AI token。

《紐約時報》科技專欄作家 Kevin Roose 在最新報導中揭露，包括 OpenAI、Meta 在內的多家科技公司，已經在內部建立了「token 排行榜」，追蹤每位員工使用 AI 工具消耗的 token 數量。這不只是好玩的數字遊戲，它已經開始影響績效考核和升遷決策。Roose 把這股風潮稱為「Tokenmaxxing」，意思是不計代價地把自己的 AI 使用量衝到最高。他在《Hard Fork》節目中和共同主持人 Casey Newton 聊了這個現象的規模、邏輯，以及它為什麼可能正在製造一場新的「量化災難」。

210 億 token 和 33 本維基百科

先解釋一下 token 是什麼。Token 是 AI 模型計算用量的基本單位，大約等於一個英文單字的四分之三。過去，你問 ChatGPT 一個問題，模型可能生成幾百個 token 作為回應。但隨著 Agent 工具和大規模自動程式碼生成的興起，現在一次工作階段就可能消耗幾十萬甚至上百萬 token。粗估大約一萬個 token 可以產出 7,500 個英文字。

這些數字到底可以有多誇張？Roose 取得的資料顯示，OpenAI 內部排行榜上近期七天 token 用量最高的一位工程師，達到了 2,100 億個 token，大約等於 33 本完整維基百科的文字量。當然，其中有一部分是快取 token，不全是模型即時生成的新內容。但這個規模在一年前聽起來仍然不可思議。

更觸目的數字來自 Anthropic 那邊。Roose 報導，Claude Code 目前最重度的個人使用者，上個月的 token 帳單超過 15 萬美元。年化下來，相當於一個年薪超過 180 萬美元的員工。一位在瑞典工作的軟體工程師也告訴 Roose，他花在 Claude 上的錢大概已經超過了自己的薪水。這些用量對於單一個人來說，已經達到了整間公司幾個月前的水準。

為什麼老闆鼓勵員工燒 token

直覺上，公司應該會想控制這種開銷。但事實恰恰相反，許多科技公司正在積極鼓勵員工多用。

背後的邏輯不難理解。高層認為 token 用量越高，代表員工越積極擁抱新的工作方式。在 Agent 工具崛起的時代，一個工程師同時跑十幾個自動化流程、讓 AI 寫程式碼、做 code review、跑測試，token 消耗量自然就高。反過來說，如果你的 token 用量很低，在主管眼中可能代表你「還沒跟上」。

Roose 採訪了多家公司的員工，發現 token 消耗量已經被納入績效考核的參考指標。年度考核時，主管可能會問你：「你上個月只用了 7,000 萬 token，發生什麼事了？」工程師們開始意識到，如果想在公司裡長期發展，最好積極使用 AI 工具，至少讓數字好看一點。

對 AI 實驗室的員工來說，情況更特殊。他們通常享有無限免費使用自家模型的福利，這意味著一旦習慣了極高 token 消耗的工作方式，離開公司去別處就「用不起」了。Roose 形容這變成了一種新型態的「金手銬」：不是靠股票期權把你綁住，而是靠免費的算力把你綁住。

Goodhart's Law 再次應驗

聽起來有道理的激勵機制，實際跑起來卻問題重重。

Casey Newton 在節目中直接指出核心矛盾：這就是 Goodhart's Law（古德哈特定律）。這條定律說的是：當一個衡量指標變成目標時，它就不再是好的衡量指標。把 token 用量當作績效指標的那一刻，它就注定會被「刷」。

事實上已經有人在刷了。Roose 跟一位消息人士聊到，排行榜頂端的那些人可能根本不是在做正事，而是拿公司的 token 額度搞自己的副業。你想想，如果你有無限免費的 Claude 使用權，最理性的行為就是拿它來做自己的 side project。在公司排行榜上你看起來特別「積極」，實際上你正在用老闆的錢創業。

也有人為排行榜辯護。有些工程師告訴 Roose，衡量程式設計師的生產力向來就沒有好方法：有人看程式碼行數，有人看 Pull Request 數量，這些指標都不完美。Token 用量至少是一個新的、跟 AI 時代工作方式相關的指標。但 Roose 自己認為，公開排行榜就是個壞主意。他舉了一個前例：美國科技八卦媒體 Gawker 曾經在辦公室掛了一塊流量排行榜，讓記者們即時看到彼此文章的點閱數。結果沒有人覺得它激勵了更好的報導，只是讓辦公室更焦慮，每個人都在追逐點擊率。Token 排行榜正在走同一條路。

裁員與燒 token 並行的荒謬劇

把 tokenmaxxing 的風潮放到更大的背景下看，有一個諷刺的並行敘事。

就在矽谷鼓勵員工拼命燒 token 的同時，大規模裁員也沒停過。光是今年三月前後，軟體公司 Atlassian 裁了約 1,600 人（10%），理由是要把資源轉投 AI 和企業銷售。金融科技公司 Block（前身 Square）砍了約 4,000 人（40%），執行長 Jack Dorsey 宣稱 AI 生產力工具讓公司不再需要這麼大的團隊。路透社報導 Meta 正準備裁掉多達 16,000 人（20%），可能是 2022 年底以來最大規模的裁員。Meta 回應稱報導是「推測性的」，但 Roose 翻譯了一下這種公關語言：「這件事正在發生，但我們還不想讓你知道。」

Casey Newton 在節目中逐一分析了這些案例。Atlassian 的股價年跌超過五成，核心產品面臨「SaaS 末日論」的威脅，AI 是方便對外講的故事。Block 在宣布裁員前不久才辦了一場花費 6,800 萬美元、有 Jay-Z 表演的公司活動，這明顯不是一家靠 AI 精簡後才「不得不」裁員的公司。Block 股價在裁員消息公布後反而大漲近兩成，投資人的反應說明了一切。

Newton 和 Roose 把這種現象稱為「AI washing」（AI 洗白），意思是企業把 AI 當擋箭牌，用它來解釋那些其實另有原因的裁員決策。裁員的真正理由可能是過度擴張、管理失誤或討好華爾街，但披上 AI 的外衣，就變成了一個前瞻、果斷的策略調整。

一邊裁人節省人力成本，一邊花天價預算讓剩下的員工燒 AI token。這筆帳到底怎麼算？目前大家都在賭同一件事：AI 工具帶來的生產力提升會超過它的成本。但賭注的金額正在快速膨脹，而驗證的方式卻只是一塊排行榜。

Tokenmaxxing 正從矽谷蔓延到所有產業

更讓人擔心的是，這股風潮不只停留在科技業。

Casey Newton 提到一個真實案例。她認識的一位行銷專業人員告訴她，原本績效考核完全看創意產出，最近突然多了一項「AI 使用量」的新指標。這位行銷人員很困惑：她的工作成果一直不錯，為什麼現在還要額外證明自己有在用 AI？但她的年終獎金可能取決於這個新指標，所以她也開始為了用而用。

從軟體業發明的「用 token 量衡量生產力」正在被其他產業原封不動地照搬。量化本身不是壞事，但用錯了指標就會產生扭曲的激勵。電腦科學界在 1960 年代就學到過這個教訓，那時候的名言是：「用程式碼行數來衡量程式設計進度，就像用重量來衡量飛機建造進度一樣。」六十年過去了，同樣的思維誤區換了一層 AI 的包裝，又重新上演。

Kevin Roose 在節目尾聲的結論很務實。他不認為所有 tokenmaxxing 都是做白工，有些大量使用 AI 工具的人確實產出驚人。但他也不認為應該建立公開排行榜。真正的問題不是「你用了多少 token」，而是「你用 token 做出了什麼」。前者很容易量化，後者很難，但偷懶選擇前者，付出的代價可能比你省下的時間更大。

我的觀察

Token 排行榜看似是 AI 時代的新發明，其實是管理學史上反覆出現的老毛病：用容易量化的東西，取代真正重要但難以量化的東西。1960 年代是程式碼行數，2010 年代是文章點閱數，2026 年是 token 消耗量。每次的結局都差不多：指標變成目標，行為開始扭曲。

但 token 排行榜真正值得注意的訊號不在排行本身，而在它揭露的資源消耗規模。一個工程師一個月可以燒掉 15 萬美元的算力，代表企業的成本結構正在出現根本性的位移：從「付人薪水」轉向「付 token 帳單」。短期看，企業是在用裁員省下的錢去付 AI 帳單；長期看，如果 AI 工具真的讓留下來的人生產力暴增，這筆帳就划算。但如果留下的人只是在排行榜上衝數字，那不過是把人力成本換成了算力浪費。

對每一個知識工作者來說，tokenmaxxing 的故事傳遞了一個清楚的訊號：重點不是你用了多少 AI，而是你用 AI 做出了什麼。在所有人都在比誰燒的 token 多的時候，真正的差異化可能恰恰在於，你有沒有能力判斷什麼時候不該用 AI。