AI 開發實戰

Shopify CTO 帕拉欣親解：無上限 token、Opus 4.6 地板，當 AI 工程量月增 30%，PR review 才是真正的瓶頸

Shopify 在 2025 年 12 月迎來 AI 工具的相變點，全公司日活 AI 使用率逼近 100%。CTO 帕拉欣分享他怎麼用「天花板拿掉、地板拉高」的反向治理，怎麼用 critique loop 取代平行 agent 的 token 燒法，以及為什麼真正的瓶頸已經從 PR latency 移到了 CI/CD 與 git 工作流本身。

2026 年 5 月 3 日 · 來源： Latent Space

Shopify CTO 帕拉欣親解：無上限 token、Opus 4.6 地板，當 AI 工程量月增 30%，PR review 才是真正的瓶頸

本文整理自 Latent Space 2026 年 4 月播出的單集，受訪者為 Shopify 技術長帕拉欣（Mikhail Parakhin）。他在加入 Shopify 前，是微軟（Microsoft）旗下含 Bing、Edge、Ads、Windows 在內事業群的執行長，更早之前在俄羅斯網路巨頭 Yandex 主導機器學習與 Alice 數位助理。原始單集約 110 分鐘。

12 月相變：當「至少用一個 AI 工具」變成全員日常

訪談一開始，Latent Space 主持人 Swyx 在螢幕上叫出 Shopify 內部的工具採用曲線，畫面上顯示一條最深綠的「總和線」幾乎已經貼到 100% 的軸線。帕拉欣指著這條線說，這是公司每天有多少比例的工作者會用到至少一款 AI 工具，到今天為止已經逼近全員。要不開那些工具還能完成日常工作，幾乎不可能。

讓他特別停下來解釋的，是 2025 年 12 月那條斜率突然陡起的轉折。他用「相變」（phase transition）這個詞來形容當時的觀察：先前一年模型每隔幾週都有一點小進步，使用者體感不太強烈，但這些零散的改善堆疊到 12 月就突然跨過了某個門檻，整條線從緩慢爬升變成爆炸性成長。「很多人那時候都注意到一樣的事情，」他說，這不是 Shopify 自己的特例，而是整個業界共同感受到的拐點，只是 Shopify 內部資料把它畫得特別清楚。

更值得玩味的是這條線下方的細部結構。帕拉欣請大家注意紅色那條代表 IDE 類工具（如 Cursor、GitHub Copilot）的曲線，它沒有萎縮，但成長明顯比藍色那條 CLI 工具線（包含 Claude Code、Codex、Pi、Shopify 自家代號為 River 的內部 agent）平緩許多。換句話說，當 AI 真的進入工作流之後，員工偏好的是「不用一直盯著程式碼」的工具，而不是內嵌在編輯器旁邊的 autocomplete。對於正在押注 IDE 體驗的工具公司，這條對比線是一張很硬的訊號。

「天花板拆掉，地板拉高」：Shopify 怎麼治理員工燒 token

接下來的對話，幾乎每個臺灣的技術主管都該抄筆記。Swyx 直接問帕拉欣：Shopify 是怎麼控制員工的 token 用量？帕拉欣的回答很直白：「我們其實是給每個人不限額度的 token，員工想用什麼工具自己挑，公司全額支付。」這聽起來像是放任，但下一句才是重點：「我們確實會控制大家用什麼模型，但管法是從下面、不是從上面。」

這個「從下面控制」的具體做法，他用了一個讓 Swyx 笑出來的句子來描述：「拜託不要用比 Opus 4.6 更小的模型。」也就是說，Shopify 不設一個「每人每月最多燒多少錢」的天花板，反而設了一個「最低也得用這個等級」的地板。在這個地板之上，有些人選 Opus 4.6，有些人選 GPT-5.4 extra-high，也有人為了 100 萬 token 的長上下文選別的選項，公司不干預。但低於 Opus 4.6 的便宜小模型，是被內部明確勸阻的。

這套邏輯反過來思考會更清楚。多數企業面對 AI 預算焦慮，第一反應是設「每人每月不超過 X 美元」這種天花板，目的是控制總帳。但帕拉欣的判斷正好相反：這個階段限制 token 用量，最大的成本不是金流，而是員工錯過練習的機會、最後產出垃圾程式碼。他寧可讓全員放手用，但用就要用最強的模型，因為小模型寫出來的東西進到 production，後續修 bug、回滾部署的成本遠高於那一點 token 費用。

當然這個策略也帶來新問題。Swyx 翻到下一張圖，是 Shopify token 消耗的分布。可以看到從 2025 年 12 月開始，整體用量呈現指數成長，但更值得擔心的是分布愈來愈偏斜：用最多 token 的前 10% 員工，成長率甚至比第 75 百分位還快。帕拉欣承認這讓他「感覺不太對勁」，因為把這個趨勢推到極端，就會變成「一個人燒掉全公司所有 token」。他坦白說目前還沒有完美解法，只能靠內部教育、案例分享，把那些已經「被 AI 賦能」的人的工作方法擴散到整個組織。

把 Jensen 那句「20 萬美元工程師應該燒 10 萬美元 token」翻譯成正解

Swyx 順勢拋出一個對所有 CTO 都有壓力的問題：輝達（NVIDIA）執行長黃仁勳到處在說「年薪 20 萬美元的工程師如果一年沒燒掉 10 萬美元 token，就是在低估 coding agent 的價值。」這句話聽起來像是賣鏟子的人在叫大家用力挖，但帕拉欣的回應出乎意料：他認為黃仁勳「方向上是對的」。

不過帕拉欣立刻把話接下去，說明關鍵不在 token 燒得多不多，而在燒得對不對。他從 Shopify 內部試錯總結出一條反 anti-pattern 的原則：最糟糕的 token 燒法，是同時開一堆平行 agent 各做各的事但彼此不溝通。這種設計乍看效率高，實際上幾乎沒用。每個 agent 都在自己那個 narrow 的子任務上跑得很開心，但組合起來的結果常常互相打架，最後產出比一個 agent 認真做完還差。

真正有效的模式，在他的描述裡是「critique loop」，也就是一個 agent 寫程式碼，另一個用不同模型的 agent 在後面挑剔、提出修改建議，原本的 agent 再依據那些回饋改寫一遍。這個流程刻意慢，因為兩邊得輪流發言，等下一輪就要等上一輪結束。但慢下來之後，產出的程式碼品質比平行燒 token 高出一個量級。帕拉欣說團隊成員一開始會抗拒這種延遲，因為人類習慣同時開很多視窗，但用一陣子之後就回不去了。

他在這段補了一句很值得放大來看的觀察：「現在的好模型寫程式，平均 bug 數比人類工程師低，這沒問題；但因為它寫得實在太多，所以最後進到 production 的 bug 總量還是會增加。」這句話精準解釋了一個讓很多公司困惑的悖論：每個 PR 看起來品質都不差，但部署環境的 bug 卻在攀升。原因不是模型寫得爛，而是它根本不會累，整個體系在生產量上跨了好幾個量級，後段的審查機制如果沒跟上，就只是把更多 bug 漏進去。

PR review 不是 Claude Code 的工作，是 GPT-5.4 Pro 與 Gemini Deep Think 的工作

順著這個邏輯，帕拉欣接下來談的就是 Shopify 內部最重要的一個工程指標：花在程式碼產生階段的 token 預算，跟花在 PR 審查階段的 token 預算之間的比例。在他眼裡，這個比例的合理性比總燒多少還重要。如果產生階段燒了 100% 的 token，審查階段只用 Cursor 順便幫忙看一下，這條 pipeline 注定會放一堆 bug 進 production。

Swyx 在這時候很尖銳地問了一句：你的內部圖表怎麼沒標出 Code Rabbit、Devin Reveal 這些公開的 PR 審查工具？帕拉欣承認這是他的「痛點」：他到目前為止沒找到任何一款公開工具長對了形狀，所以 Shopify 自己造了一套。問題在於 PR 審查的最佳形態，跟一般工程師對 coding agent 的直覺正好相反，也跟那些公司的商業模型對不起來。

他描述的最佳形態長這樣：用最大的 pro 級模型（如 GPT-5.4 Pro、Gemini Deep Think），讓它們慢慢輪流來看每一行 PR，token 用量其實不多，但延遲長到會讓開發者皺眉。這跟 Claude Code 或 Codex 那種「我跟你聊兩句、邊聊邊改」的互動模式完全不同。更不是 Code Rabbit 那種一開就是十幾個 agent 同時掃 PR 的 swarm 結構。「你想要的是少量 token 跑在貴模型上，慢慢輪流，」他說，「而不是一群便宜 agent 在那邊瞎搞。」

對於正在自建內部 PR 工具的臺灣技術團隊，這套標準是個有用的對照。如果你看到自家工具一開就跑出十幾個並發審查者，那大概就是抓錯了形狀。帕拉欣的判斷是，這個階段公開工具的市場需求還沒收斂，多數公司會像 Shopify 一樣在內部自建一陣子，直到形狀清楚了再來談標準化。

真正的瓶頸不是 PR 等多久，而是 CI/CD 撐不住

更深的洞察出現在後段。Swyx 提到他自己最受不了的就是 PR 等人類審查等一整週的折磨，相比之下他寧可給 pro 模型一兩小時去看。帕拉欣同意這個 trade-off，但他把整個討論再往上推了一層：到了 Shopify 現在的規模，等 PR 被審完根本不是最痛的瓶頸。真正卡住一切的，是 CI/CD 流水線開始撐不住整個組織級的程式碼產出量。

他把畫面切到另一張圖，PR 合併速率現在是每月 30% 的成長，從先前一段時期 10% 的速率明顯跳升。在這個曲線上每個 PR 還變得更複雜，因為人寫一個簡單功能會就此打住，AI 會順便重構、補測試、整理舊有結構。這意味著 CI 跑出來測試失敗的機率正比例攀升，每次失敗都得回頭找出闖禍的 PR、把它退出佇列、重跑一輪測試。當這套流程在每月 30% 的成長壓力下執行，整體部署週期會被拉得很長，比起多花一小時讓 pro 模型把 PR 看仔細，前者的時間成本還高出許多。

換句話說，「快速 PR」這個指標在 AI 時代會反過來坑你。表面上 PR 過得越快越好，但如果代價是更多測試在 CI 上炸掉，那帳算下來其實是負的。帕拉欣的結論很直接：應該把指標換成「整體部署到 production 的端到端時間」，從這個指標反推，慢慢用大模型把 PR 看完，反而是節省時間的做法。

微服務可能要回歸：當 AI 把 monorepo 變成全域 mutex

對話最後一段的轉折，連 Swyx 都笑出來。他問帕拉欣，現在很多人在抱怨「我們是不是該換掉 GitHub」，甚至更激進地問「git 本身、PR 這個概念，是不是都已經是 agent 時代的瓶頸？」帕拉欣的回答是這樣的：他這輩子都是「微服務的死忠反對者」，認為過去十年那波微服務化是工程上的歪路；但在 agent 時代他開始重新思考這件事。

他的論點是這樣展開的。今天 Shopify 用 Graphite 做 stacked PR，這已經比一般公司的工作流先進。但即使這樣，monorepo 加上 PR 流程在邏輯上等同於整個系統共享一把全域 mutex：每次合併衝突都得整支隊伍停下來等。當寫程式的是人類、速度本來就慢的時候，這把 mutex 不太礙事；但當寫程式的是不會累的 agent、輸出量乘以 10 倍 100 倍的時候，這把 mutex 就會把整個組織卡死。

這時候微服務那種「每個服務獨立 deploy、互相不阻塞」的架構，反而開始變得有道理。他特別提到 Google 的做法是 monorepo 但部署到微服務，加上 Netflix 的 Chaos Monkey，這套組合在 agent velocity 之下可能會被重新發明。帕拉欣自嘲說：「我曾經是這條路的死敵，現在卻在反過來想，會不會其實微服務就是正解。」這個自我顛覆，比任何結論都更值得記下來，因為這代表 AI 工程化會逼著我們重看很多十年前以為已經塵埃落定的辯論。

我的觀察：這份藍圖對臺灣團隊有什麼用

Shopify 的這份內部資料，最值得臺灣團隊抄走的不是「無上限 token」這個動作本身，而是它背後那套指標切換的邏輯。多數公司今天還在用「token 花了多少」、「每位工程師一天合幾個 PR」這類舊指標管理 AI 投入。Shopify 已經把指標切到「程式碼產生 vs PR 審查的 token 預算比例」、「整體部署到 production 的端到端時間」、「CI/CD 失敗率與重跑成本」。這個切換在組織內部需要管理層願意重新教育，但只要切過去，後續的決策幾乎都會變得清楚。

第二件值得抄的，是「critique loop」這個模式具體怎麼落地。對只有十幾個工程師的臺灣團隊，要立刻搭建 GPT-5.4 Pro + Gemini Deep Think 等級的 PR 審查線可能不切實際，但小一點的版本完全做得到：要求所有 AI 寫的程式碼，至少走一輪「不同模型來挑剔」的流程，產出方用 Claude Code，挑剔方用 Codex 或 GPT-5.4，反過來也行。這個動作在工具上不難設置，難的是工程師心態要從「平行多開比較爽」轉成「同一件事讓兩個模型輪流看」。

第三件，是面對「微服務是不是該回歸」這種架構辯論時，要願意像帕拉欣那樣推翻自己過去的判斷。AI 工程化會持續把「組織卡點」推到先前不敏感的層面，從 IDE 變 CLI、從 PR latency 變 CI/CD、從 monorepo 變部署架構，這些都不是工具升級的小事，而是工作流程設計的根本問題。能不能在每一輪變化發生時，誠實地問自己「以前的判斷在新條件下是不是反了」，會是 AI 時代技術主管最稀缺的能力之一。

最後一個小提醒，是對所有臺灣的 SaaS 與 AI 工程化新創。帕拉欣花了幾分鐘吐槽他找不到合用的公開 PR 審查工具，這其實是一個明確的市場缺口訊號：能用 pro 級模型、慢慢輪流、低 token 大延遲、聚焦在審查階段的工具，目前在公開市場還沒有強選手。誰能先把這個形狀做對，誰就會接住下一波企業 AI 工程化的需求。