AI 開發實戰

當 AI Agent 打爆你的 CI/CD：Cursor 的吞吐量革命

Cursor 用 100 多個並行 Agent 打造內部瀏覽器，結果把自家的 GitHub Actions 搞掛了。這不是意外，而是軟體開發正在經歷的根本轉變：從追求個人速度，到追求 Agent 軍團的吞吐量。

2026 年 3 月 13 日 · 來源： Latent Space Podcast

本文整理自 Latent Space Podcast 2026 年 3 月播出的單集。

{{< apple-podcast "tw/podcast/cursors-third-era-cloud-agents/id1674008350?i=1000753497435" >}}

封面圖

Cursor 最近做了一個內部實驗：用超過 100 個並行 Agent 打造一個瀏覽器。每個 Agent 跑在獨立的虛擬機器裡，同時推送程式碼、觸發 CI。結果？他們自己的 GitHub Actions 被打爆了。

Jonas 在 Latent Space Podcast 裡描述這個場景時，語氣裡帶著一種「踩到自己的坑」的興奮感：「我們最近搞掛了自己的 GitHub Actions，因為太多 Agent 同時在產生和推送程式碼，CI/CD 直接過載。」他接著說了一句更值得思考的話：「等於我們的有效人力瞬間增加了十倍。」這不是一個 Bug 報告，而是一個信號。它告訴我們，軟體開發正在從一個「延遲優化」的世界，走向一個「吞吐量並行化」的世界。而大部分團隊的基礎設施還停留在前一個世界。

為什麼需要 100 個獨立的 VM

要理解為什麼 100 個 Agent 會打爆 CI/CD，得先理解 Cursor 雲端 Agent 的架構。

在過去，AI 編程助手跑在你的本地機器上。Agent 佔用你的 CPU、記憶體和磁碟空間，你同一時間頂多跑一兩個。更重要的限制是，所有 Agent 共享同一個開發環境，它們修改的是同一組檔案。這就像讓十個廚師共用同一個砧板，動作快了，但搶資源的衝突也多了。兩個 Agent 同時改同一個檔案，結果就是 merge conflict。

Cursor 的解法是給每個 Agent 一台獨立的雲端虛擬機器。每個 VM 有完整的作業系統、開發環境、瀏覽器、終端機和 Git。Agent 在自己的 VM 裡自由操作，不會影響到其他 Agent。修改完的程式碼推送到自己的分支，交出一個獨立的 PR。這個架構徹底去除了 Agent 之間的耦合。你可以同時跑十個 Agent 處理十個不同的功能，它們不會互相干擾，因為每個都在自己的沙箱裡工作。

但這個架構有一個「副作用」，Cursor 自己踩了進去：當十個 Agent 完成工作後會同時觸發 CI/CD Pipeline。如果你的 CI 系統是為「一個團隊一天合併十幾個 PR」設計的，突然湧入幾十個甚至上百個 PR，它就撐不住了。在打造內部瀏覽器的實驗中，工程師 Wilson 同時啟動了超過 100 個 Agent，每秒產生數千個 token 的程式碼。這些 Agent 各自完成工作後，推送了大量的 commit 到 GitHub，GitHub Actions 的並行執行佇列瞬間爆滿。Cursor 被迫回頭重新設計自己的 CI/CD 架構，讓它能承受「十倍有效人力」的負載。

Latency vs Throughput：心智模型的根本轉變

Jonas 提出了一個思考框架，我覺得值得每個開發團隊認真消化。他把軟體開發的效率拆成兩個維度：延遲（Latency）和吞吐量（Throughput）。

過去幾年，AI 編程工具的重點是降低延遲。讓一個人寫程式寫得更快：更好的自動補全、更聰明的 Agent、更準確的一次性完成。這是一個「單管道」的思維，把精力花在讓那根管子流得更快。每次模型升級，大家比較的都是「這個 Agent 一次能完成多少」「正確率提高了幾個百分比」。重點始終是「一個人配一個 Agent 能做多少事」。

但 Jonas 認為，接下來真正的突破不是讓管子流得更快，而是讓管子變得更寬，同時讓更多管子並行。他用了一個水管的比喻：想像你面前有一個水池要裝滿。過去的做法是加大水壓，讓同一根水管出水更快。現在的做法是同時接十根水管，每根獨立運作。單根水管的流速可能差不多，但十根並行的總產出量是原來的十倍。

這個心智模型的轉變對開發者有幾個實際的意義。第一，你花時間的方式會改變。過去你花 80% 的時間寫程式碼，20% 的時間審核和規劃。未來可能翻過來：80% 的時間在審核 Agent 的產出、拆解任務、分配工作，只有 20% 的時間自己動手寫。第二，瓶頸會從「寫程式的速度」轉移到「人類審核的速度」。Agent 可以 24 小時不停跑，但你不行。如何高效地審核十個 Agent 同時產出的結果，會成為一項新的核心技能。第三，基礎設施需要重新設計。CI/CD、Code Review 流程、分支管理策略，這些原本為「十幾個人的團隊」設計的系統，突然要承受百倍的負載。Cursor 的 CI/CD 被打爆就是最好的例子。

Grind Mode：長跑前先花三小時對齊

Cursor 從瀏覽器實驗中學到的最重要教訓，和技術無關，而是關於溝通。

Grind Mode 是 Cursor 的長時間自主執行功能，讓 Agent 連續工作數小時甚至數天，中間不需要人類介入。聽起來很美好，但 Jonas 指出一個關鍵原則：如果 Agent 要跑三天，你最好在開跑前花幾個小時確認你們對任務的理解完全一致。這不是一句客氣話，而是血淋淋的教訓。想像你啟動了一個 Agent 去重構一個模組，三天後回來發現它把整個架構改成了你完全不想要的方向。三天的運算資源浪費了，你還得花更多時間把它改回來。

Cursor 用強制的計畫對齊機制來解決這個問題。Agent 在開始執行前，必須先產出一份完整的計畫書，詳細描述它打算怎麼做、分幾個步驟、每一步的預期產出是什麼。人類審核計畫、修正方向、確認一致之後，Agent 才會開始執行。投入在對齊上的時間，應該與 Agent 的自主執行時間成正比。如果 Agent 跑十分鐘就好，花三十秒講清楚需求就夠了。但如果 Agent 要跑三天，花三小時把每一個細節都討論清楚是值得的。

這個比例原則聽起來簡單，但在實際操作中很容易被忽略。開發者總覺得「差不多就好，Agent 應該能理解我的意思」。結果往往是 Agent 理解了，但理解的方向和你想的不一樣。這和帶新人其實很像：你交代一個任務，覺得自己講得很清楚了，結果新人做出來的東西和你想的完全不同。差別在於，新人做錯了你可以當面溝通，Agent 做錯了你三天後才發現。

模型選擇：從死忠粉到即時切換

Sam 在 Podcast 裡坦承了一件事：他曾經是 Opus 4.5 的死忠粉，覺得這個模型什麼都好。但當 Codex 5.3 一出來，他直接全面切換了。「以前我是 Opus 4.5 的死忠。Codex 5.3 一出來，直接切過去了，現在只用它。」

這個小故事背後反映的是 AI Agent 領域的現實：模型的領先週期非常短，今天的最佳選擇可能三個月後就被取代。如果你的工作流綁死在某一個模型上，你會錯過新模型帶來的能力提升。Cursor 的解法是「Cursor Auto」，一個自動路由功能，根據每個請求的特性選擇最適合的模型。在桌面版 App 裡已經運作，現在正在擴展到雲端 Agent。

但 Cursor 還做了更激進的實驗：Model Synthesizer Layer（模型綜合層）。他們同時把同一個任務丟給不同的模型供應商，讓每個模型在獨立的 VM 裡執行，然後用一個 Synthesizer Agent 來綜合所有結果，寫出一個融合各家優點的最終版本。這個實驗的發現出乎意料：不同模型供應商產出了互補的結果，即使其中一個模型在基準測試上明顯領先，最終的綜合版本還是比任何單一模型的結果好。這驗證了一個論點：真正的護城河不在於你用了哪個模型，而在於你如何組合、路由、和綜合多個模型。

Sub-Agent：Agent 內部的分工

Agent 的規模擴大之後，一個自然的問題浮現：單一 Agent 會在長時間執行中累積太多的上下文，超出模型的處理能力。你讓一個 Agent 連續工作八小時，它的對話歷史會膨脹到非常長，模型開始忘記前面的指令，或者把不同階段的任務搞混。

Cursor 的解法是 Sub-Agent：讓主 Agent 把特定子任務委派給更小、更專注的 Agent。Cursor 內建了兩種 Sub-Agent。第一種是 Explore Sub-Agent，專門負責閱讀和理解程式碼庫。這種 Agent 會被路由到更快、更便宜的模型上（比如 Composer），因為它不需要寫程式碼，只需要理解和摘要。你可以同時啟動 50 個 Explore Sub-Agent 去掃描程式碼庫的不同部分，然後把摘要匯報給主 Agent。第二種是 Computer Use Sub-Agent，專門負責在瀏覽器或桌面上測試功能。這種 Agent 需要處理大量的截圖，對模型的多模態能力要求更高。

Sub-Agent 解決了兩個問題。第一是上下文管理：主 Agent 不需要把所有細節都記在自己的上下文窗口裡，而是在 Sub-Agent 的邊界做摘要。一個八小時的任務可能包含幾十個 Sub-Agent 的呼叫，但主 Agent 只需要記住每個 Sub-Agent 的摘要結果，不需要記住所有細節。第二是並行化：你可以同時派出幾十個 Sub-Agent 去做獨立的子任務，然後把結果彙整回來。這把「一個 Agent 做一件事」升級成了「一個 Agent 指揮幾十個 Sub-Agent 同時做幾十件事」。

我的觀察：Jevons Paradox 正在軟體開發中上演

經濟學裡有一個叫做 Jevons Paradox（傑文斯悖論）的概念：當技術進步讓某種資源的使用效率提高時，這種資源的消耗量反而會增加而不是減少。十九世紀的蒸汽機效率提高了，煤的消耗量不減反增。原因是效率提升讓更多應用場景變得可行，總消耗量因此暴增。

AI 編程工具正在完美演繹這個悖論。表面上，AI 讓寫程式變得更有效率了，每行程式碼的成本下降了。但 Cursor 的定價演進告訴了我們真正發生的事：開發者花在 AI 上的錢不是減少了，而是從每月 20 美元暴增到可能上萬美元。因為效率提升讓更多任務變得「值得讓 Agent 去做」。以前一個小 Bug 你覺得不值得花時間修，現在丟給 Agent 五分鐘就搞定了，你當然會修。以前你覺得「這個 Feature nice to have 但沒時間做」，現在開一個 Agent 跑一天就有了，你當然會做。

Sam 在 Podcast 裡預測，到 2026 年底會有接近 100% 的程式碼由 Agent 產出。這個預測可能太激進，但方向是對的。問題在於：當 Agent 的邊際成本趨近於零，「要不要做」的決策門檻會大幅降低。結果可能是一堆沒人真正需要的功能被 Agent 生出來，反而增加了維護的負擔。在 Agent 時代，知道什麼不該做，可能比知道怎麼做更值錢。