AI 開發實戰

指揮家心態：管理上百個 AI Agent 的 Context 戰爭

當 AI coding agent 成為日常工具，context 管理就成了最大瓶頸。資安老兵 Pedram Amini 打造開源平台 Maestro，用 Tab 隔離、Auto-run 自動化和 24 小時開發循環，示範如何同時指揮 50 個 Agent 不迷路。

2026 年 5 月 17 日 · 來源： Open Source Startup Podcast

本文整理自《Open Source Startup Podcast》2026 年 4 月播出的單集。

{{< apple-podcast "tw/podcast/e193-managing-100s-of-agents-with-maestro/id1548524534?i=1000760356283" >}}

封面圖

你的 AI Agent 是不是也開始「健忘」了？

如果你每天使用 Claude Code、Codex 或任何 AI coding agent，你一定遇過這種情況：一個對話用了一個多小時之後，AI 開始忘記你剛剛講過的事情。你明明十分鐘前告訴它「這個函式不要動」，它卻又改了一遍。或者你同時在處理三個不同的功能，到了第四個小時，它搞混了 A 功能和 B 功能的邏輯。這不是 AI 變笨了，而是它的 context window 滿了。

這個問題有個名字，叫做「context rot」（脈絡腐壞）。資安領域的連續創業者佩德拉姆．阿米尼（Pedram Amini）把它形容為當前 AI 開發最大的瓶頸。他的判斷標準很具體：context 消耗到 60% 時就該警覺，到 80% 時這個 session 基本上已經報廢了。「即便你做壓縮，模型也不知道該保留哪些記憶，」他說，「結果就是它對你正在處理的事情失去焦點。」

Amini 不是一個 AI 原生的開發者。他是 OPSWAT 首席科學家，過去 20 年都在做資安研究、漏洞挖掘和逆向工程，創辦過四家公司並全數成功退場。但 2025 年感恩節那個週末，他和一群駭客朋友吃飯，桌上 12 個人有一半在抱怨同一件事：AI 終端機開太多，根本不知道哪個需要注意、哪個在做什麼。那天晚上他回家就開始動手，週日已經有了 V1，一週後就完全不用 IDE 了。他做出來的東西叫 Maestro。

Tab 即 Todo：用瀏覽器邏輯管理 Agent

Amini 對 context rot 的解法出奇直覺：每個新問題、新功能、新 bug 都開一個新的 tab。就像你用瀏覽器一樣，分頁就是待辦事項。他目前有 50 個 agent 定義和超過 350 個開啟中的 tab，每個 tab 都維護自己獨立的 context，互不干擾。

這個做法的關鍵好處是你可以隨時回頭。如果兩週前做的某個功能出了問題，你找到那個 tab，接續上次的對話繼續迭代，因為那個 session 裡存的就是那個功能最完整的脈絡。不用重新解釋背景，不用重新貼程式碼，更不會被其他功能的雜訊污染。Amini 把這比喻成指揮家的工作：「我把它命名為 Maestro，因為我感覺自己像一個指揮家。我在瘋狂揮舞指揮棒，底下有好幾組 agent 團隊在回應。」

這裡有一個思維的轉換。多數人使用 AI coding agent 的方式是「一對一長對話」：開一個 session，把所有事情塞進去，從早用到晚。Amini 的做法是「一對多短對話」：每個任務開新 context，用完就擱著，需要再回來。他形容自己的策略是「非常慷慨地開新 tab」（very liberal with opening tabs）。這和傳統軟體開發中「一個 IDE 搞定一切」的思維完全不同，更像是把 AI agent 當成一個分散式系統來管理。

Maestro 支援的 agent 提供者包括 Claude Code、OpenAI Codex、OpenCode 和 Factory，每個 agent 都有自己的 MCP 設定、hooks 和 skills 配置。這意味著你可以針對不同專案設定完全不同的工作環境：前端專案用一套，後端 API 用另一套，甚至同一個微服務架構的不同 repo 都可以各自有專屬 agent。

Auto-run：讓 Agent 在你睡覺時工作 21 小時

如果只是管理互動式的 tab，Maestro 充其量就是一個比較好用的終端機管理器。真正讓它成為「編排平台」的是第二個核心功能：auto-run，也就是無人值守的自動執行。

工作流是這樣的：你不是發送一個單一的 prompt，而是準備一份 Markdown 文件（或多份），裡面列出一系列待完成的任務。然後把這些文件丟給 Maestro，讓它開始工作。系統會自動為每一個任務建立全新的 context，完成後進入下一個。10 份文件各有 5 個任務，就是 50 個獨立的新 session，一個接一個執行，永遠不會撞到 context wall。

Amini 個人最長的無人值守紀錄是 21 小時。排行榜上的冠軍使用者跑了兩天半。他指出，一般來說 AI agent 在 5 小時持續執行後效能會掉到 30%，但 Maestro 不會遇到這個問題，因為每個任務都是全新的 context，沒有腐壞的可能。

這 21 小時在做什麼？是自動化測試覆蓋率的提升。Amini 快速寫了大量程式碼後發現回歸問題越來越多，於是設計了一個「文件迴圈」：找到沒有測試覆蓋的區域、寫測試案例、確認通過、檢查覆蓋率，如果低於 80% 就重來一次。從 0% 開始一路爬升，到 80% 時自動停止。其他常見的長時間任務包括新功能開發（約 6 小時）和市場研究（透過瀏覽器自動爬取資料、產出 Markdown 報告）。

他的日常節奏因此變成 24 小時循環：白天互動式工作，一邊處理昨晚的產出、一邊規劃今晚的任務；夜間讓 agent 無人值守地執行。Spec-driven development（規格驅動開發）是關鍵方法論：先和 Maestro 討論需求，等內建的信心指標到 80% 時，讓它自動產出 5 到 10 份 auto-run 文件，然後按下播放鍵。

從原型到生產：「打磨」才是真功夫

Amini 反覆強調一個多數人還沒充分理解的現實：用 AI 從零做出原型很容易，但要把原型變成數千人穩定使用的生產級軟體，完全是另一個層次的挑戰。

Maestro 本身就是活教材。這是一個 50 萬行的跨平台桌面應用，支援 Mac、Windows、Linux，可以本地執行也可以透過 SSH 遠端操作，光是端對端測試的排列組合就有 28 種。這種複雜度迫使他發展出一套紀律：把所有的 agents.md、Claude.md 設定檔都納入 repo，確保任何 contributor 都用相同的模式開發；建立嚴格的回歸測試流程；PR 進來後先由 CodeRabbit 和 Reptile 做自動分析，再由他自己的 Maestro 根據專案脈絡給出回饋，最後推進 release candidate 分支讓 bleeding edge 使用者先跑一段「浸泡時間」。

「生產級」和「企業級」之間還有一道鴻溝。Amini 把軟體成熟度分成三層：prototype（任何人都能做）、production-grade（數千人用不出問題）、enterprise-grade（推到付費客戶手上）。每一次跳躍，程式碼的複雜度、測試的嚴謹度、錯誤處理的周全度都要倍增。AI 可以幫你快速到達第一層，但從第一層到第二、第三層，需要的是人類的判斷力和耐心。他把這個過程叫做「putting polish」（打磨），並且坦承這是他白天最主要的工作：檢視昨晚 agent 的產出，一個按鈕一個按鈕地測試，每發現一個不對的地方就回報給 agent 修正。

我的觀察：Context 管理是 AI 協作的隱藏主戰場

作為一個每天使用 Claude Code 寫作和開發的人，聽 Amini 談 context rot 的那一刻我心裡想的是：「原來不只我一個人踩這個坑。」我曾經在一個長 session 裡同時處理文章寫作和網站部署，結果 Claude 開始把文章的段落邏輯和 Hugo 模板的 Go 語法混在一起回覆。那次之後我學會了一件事：每個任務開新對話，絕不貪圖「不用重新解釋」的方便。

Amini 的 60% 警戒線在我的經驗中也能印證。一個 Claude Code session 大概在 40 到 50 分鐘深度使用後就會開始出現微妙的偏移：不是完全離題，而是開始「忘記」你前面設定的約束條件。例如你說過「段落不要用破折號」，前 30 分鐘它確實遵守，到了第 50 分鐘又開始出現。這不是 AI 的缺陷，這是 context window 的物理限制，就像你不能要求一個人同時記住 200 頁的交代。

但 Amini 的實踐也點出了一個更深層的問題：我們現在使用 AI agent 的方式，本質上是在用人類的注意力去彌補工具的 context 限制。你得記住哪個 session 在做什麼、哪個需要你的輸入、哪個已經完成。當你只有兩三個並行任務時這還可以，但當你像 Amini 一樣有 350 個 tab 時，管理 agent 本身就變成了一份全職工作。這就是為什麼他需要一個「指揮台」。而我認為，這個需求不會只停留在開發者的世界。任何大量使用 AI 的知識工作者，遲早都會需要某種形式的 context 編排工具。

結語：指揮家的困境

Amini 自己也承認，他的終極目標是有一天「不再需要工作在 Maestro 上，而是純粹用它來完成其他工作」。但現實是，他還在投入大量時間開發和維護這個工具本身。這是一個有趣的悖論：你為了提升效率而打造的系統，本身就需要大量的維護效率。

更值得思考的是他對未來的判斷：「你不應該需要管理一個 agent 矩陣。你應該能用高層次的語言描述你的願景，加上幾張紙巾上的草圖，然後讓系統把它實現。」換句話說，「指揮家」這個角色本身也是過渡期的產物。當模型能力持續提升、多 agent 協調變得更自動化之後，我們可能不再需要手動編排，就像今天的程式設計師不需要手動管理記憶體分配一樣。

但在那個未來到來之前，能夠有意識地管理 context、系統性地拆分任務、建立人機協作的 24 小時節奏，就是當前最有競爭力的 AI 工作方式。不管你用的是 Maestro、Claude Code 的多 session 模式，還是自己的一套土法煉鋼，底層邏輯都是同一個：把大腦從「記住所有脈絡」中解放出來，讓正確的 context 出現在正確的 agent 面前。