AI 開發實戰

Cursor Cloud Agent 是什麼？從自動補全到雲端 Agent 的三個時代

Cursor 團隊揭示三階段演進：20 美元自動補全、數百美元本地 Agent、數千美元雲端 Agent 軍團，每個 Agent 擁有獨立 VM 與瀏覽器。

2026 年 3 月 13 日 · 來源： Latent Space Podcast

Cursor Cloud Agent 是什麼？從自動補全到雲端 Agent 的三個時代

本文整理自 Latent Space Podcast 2026 年 3 月播出的單集。

{{< apple-podcast "tw/podcast/cursors-third-era-cloud-agents/id1674008350?i=1000753497435" >}}

封面圖

Cursor 最近公布了一個數字：他們內部合併的 Pull Request 中，超過 35% 是由 AI Agent 在雲端沙箱中自主完成的。不是人類寫了一半讓 AI 補完，而是 Agent 從頭到尾獨立作業，最後交出一個附帶測試截圖和操作影片的 PR，等人類審核。這個數字背後，是 Cursor 正在推動的一場根本性產品轉型。在 Latent Space Podcast 最新一集中，Cursor 的 Jonas 和 Sam 詳細拆解了這場轉型的邏輯：Cursor 正在從一個「幫你寫程式的編輯器」變成一個「幫你管理 Agent 軍團的指揮中心」。

Tab、Agent、雲端 VM：三個時代的定價邏輯

Cursor 的產品演進可以清楚地分成三個時代，而每個時代的定價直接反映了開發者能從 AI 身上獲得的槓桿倍數。

第一個時代是 Tab 自動補全。你在編輯器裡打字，AI 猜你接下來要寫什麼，按 Tab 接受。這個功能好用，但本質上只是加速了你已經在做的事。開發者每月付大約 20 美元，得到的是打字速度的提升。你還是那個寫程式碼的人，只是打字打得快了一些。這個階段的 AI 是一個「快速打字員」。

第二個時代是本地 Agent。Agent 不只是補完你的句子，而是根據你的指令去修改檔案、執行命令、跑測試。你描述一個需求，Agent 嘗試實現它。這個模式的威力大得多，但也受限於你的本地機器。Agent 在你的電腦上跑，佔用你的 CPU 和記憶體，你沒辦法同時開太多個。而且所有 Agent 共享同一個檔案系統，容易產生衝突。開發者每月花費來到數百美元，得到的是一個在你電腦裡幫忙的「實習生」。

第三個時代就是現在正在發生的雲端 Agent。每個 Agent 擁有一台獨立的虛擬機器（VM），上面有完整的開發環境、瀏覽器、終端機和 Git。你可以同時啟動十個、二十個 Agent，每個在自己的 VM 裡獨立工作。Jonas 描述了一個理想的工作畫面：早上到公司，啟動十個 Agent 分別處理不同的任務，然後在它們之間跳轉，審核進度、注入方向、給予品味上的修正。在這個模式下，開發者每月的 AI 支出可能攀升到數千甚至上萬美元。

這三個時代的演進揭示了一個規律：每一次躍遷，不是讓開發者「寫程式寫得更快」，而是讓開發者能「同時推進的事情變更多」。從加速打字，到自動化單一任務，到並行管理十幾個獨立任務。這不是效率的線性提升，而是工作模式的質變。

雲端 Agent 的三根支柱：測試、影片、遠端桌面

Cursor 的雲端 Agent 建立在三個核心能力上，每一個都解決了過去本地 Agent 無法處理的痛點。

第一根支柱是自動化測試與驗證。Cursor 把這個功能叫做 BugBot，直接整合在 Slack 裡。BugBot 收到指派的 issue 後，自動建立分支、修改程式碼、執行測試，甚至做截圖比對來確認 UI 沒有壞掉，最後建立 PR。整個過程不需要打開編輯器。對團隊協作來說，這意味著許多 Bug 修復可以在背景自動完成，開發者只需要在 Slack 裡看到通知、審核 PR 就好。Bug 修復從「排進待辦清單等人處理」變成「Agent 十分鐘內自動搞定」。

第二根支柱是自動生成 Demo 影片。Agent 在完成功能開發後，會錄製自己操作軟體的螢幕畫面，產出一段展示影片。這解決了 Code Review 中最痛苦的問題：你收到一個 PR，看了 diff，但完全不知道改完之後使用者實際看到的是什麼。以前你得自己 checkout 分支、啟動開發伺服器、手動測試才能確認。有了 Agent 自動錄製的操作影片，Reviewer 可以在幾分鐘內確認功能是否正常，PR 審核的速度大幅加快。

第三根支柱是完整的遠端桌面存取。Cursor 選擇用 VNC 串流整個桌面環境，而不是只做 Port Forwarding。Jonas 解釋了這個決定的原因：遠端桌面比 Port Forwarding 更通用。Port Forwarding 只能讓你看到跑在特定 port 上的 Web 應用程式，但遠端桌面讓你看到整個 VM 的畫面，包括桌面應用程式、檔案管理員、瀏覽器的所有分頁。更重要的是，使用者可以直接操作 Agent 正在使用的那台 VM，不用在本地 checkout 分支。你和 Agent 共享同一個桌面環境，可以即時接手、修改、測試。

這三根支柱加在一起，讓雲端 Agent 不再只是「一個會寫程式的 AI」，而是一個能獨立完成從開發到測試到展示的完整工作流程。Agent 不只產出程式碼，它還自己驗證程式碼能跑，然後錄一段影片證明給你看。

刻意限制：拿掉檔案編輯器的設計哲學

Cursor 在雲端 Agent 的 Web UI 設計上做了一個反直覺的決定：刻意拿掉了檔案編輯器。

這不是功能還沒做好，而是刻意為之。Jonas 的邏輯是這樣的：如果你給使用者一個聊天框加上萬能的權限，他們最常做的事情是什麼？問一些無關緊要的問題。但如果你給使用者一個沒有檔案編輯器的 Web UI，他們會自然而然地學會「委派」，把修改的工作交給 Agent 去做，而不是自己動手改程式碼。限制選項，反而引導出了更強大的使用模式。

這個設計哲學的核心是：Cursor 不是在為「現在的開發方式」設計工具，而是在為「未來的開發方式」設計。在 Cursor 看來，未來的開發者不會自己打開檔案一行一行寫程式碼，而是告訴 Agent 要做什麼，然後審核結果。既然要引導使用者往這個方向走，那就直接拿掉讓他們「退回」手動編輯的選項。這和很多產品設計的常識相反，一般的想法是「功能越多越好，讓使用者自己選」。但 Cursor 選擇了減法。

這個決定和 Cursor 在桌面版 App 的觀察一致。Jonas 提到，在桌面版裡，人們已經越來越少直接編輯檔案了。大部分的修改都是透過 Agent 完成的。Web UI 只是把這個趨勢推到極致，徹底消除手動編輯的可能性，讓使用者完全進入 Agent-first 的工作模式。

VM 架構的技術取捨

在底層架構上，Cursor 的雲端 Agent 有幾個值得留意的技術選擇。

每個 Agent 的 VM 使用檔案系統快照（Filesystem Snapshot）來加速初始化。當你啟動一個新的 Agent，它不是從頭開始安裝環境，而是從一個預先準備好的快照中啟動。這大幅縮短了 Agent 的冷啟動時間。同時，Cursor 使用記憶體快照（Memory Snapshot）來實現 Agent 的休眠和喚醒。當一個 Agent 暫時不需要運算資源時，整個 VM 的記憶體狀態會被存成快照，等需要時再恢復。這讓 Cursor 可以在同一批硬體上運行更多的 Agent，因為不是每個 Agent 都需要同時佔用資源。

選擇 VNC 遠端桌面而非 Port Forwarding 也是經過深思熟慮的。Port Forwarding 更簡單、延遲更低，但它只能處理 Web 應用程式。如果 Agent 需要操作一個桌面應用程式，或者需要在瀏覽器裡同時開多個分頁測試不同的場景，Port Forwarding 就做不到了。遠端桌面雖然頻寬需求更大，但它提供了完整的視覺化存取，讓 Agent 的電腦使用能力不受限於特定類型的應用。這也是為什麼 Cursor 能讓 Agent 自己錄 Demo 影片的原因：Agent 可以看到整個螢幕的內容。

這些技術選擇的背後有一個共同的設計理念：讓 Agent 的使用體驗盡可能接近「有一台自己的電腦」。快照加速啟動、記憶體保存讓休眠無感、遠端桌面提供完整操作。Agent 不是一個受限的自動化腳本，而是一個有完整電腦操作能力的數位工作者。

我的觀察：Cursor 正在定義一個新物種

Cursor 做的事情，本質上是在定義一個全新的軟體類別。它不再是一個 IDE，也不只是一個 AI 編程助手。它更像是一個「AI 勞動力管理平台」，讓你指派、監督、審核一群 Agent 的工作成果。

這個轉變對開發者的意義是雙重的。好的一面是，個人的產出能力會大幅擴張。一個好的開發者配上十個雲端 Agent，產出可能接近一個小型團隊。但另一面是，「寫程式」這件事在開發者工作中佔的比重會繼續下降，取而代之的是「審核 Agent 的產出」「把需求拆解成 Agent 能執行的粒度」「在 Agent 之間分配工作」這些管理性質的技能。開發者的工作會越來越像產品經理，而不是工程師。

Cursor 已經在自己身上驗證了這一點。35% 的合併 PR 來自 Agent，而且這個比例還在上升。Jonas 預測，到 2026 年底，雲端 Agent 的使用量會超過本地 Agent 兩倍以上。如果這個預測成真，我們現在習慣的「打開編輯器、切分支、寫程式碼、跑測試、發 PR」工作流程，在一年之內可能就會變成少數人才做的事情。到那時候，開發者的核心競爭力不再是寫程式碼的速度，而是把問題拆解成 Agent 能理解的粒度、審核 Agent 產出的品質、以及在十幾個 Agent 之間注入品味和方向的能力。