指揮家心態:管理上百個 AI Agent 的 Context 戰爭
當 AI coding agent 成為日常工具,context 管理就成了最大瓶頸。資安老兵 Pedram Amini 打造開源平台 Maestro,用 Tab 隔離、Auto-run 自動化和 24 小時開發循環,示範如何同時指揮 50 個 Agent 不迷路。

本文整理自《Open Source Startup Podcast》2026 年 4 月播出的單集。
{{< spotify "episode/16XYNGopatgVbDwgTHgTch" >}}
{{< apple-podcast "tw/podcast/e193-managing-100s-of-agents-with-maestro/id1548524534?i=1000760356283" >}}

你的 AI Agent 是不是也開始「健忘」了?
如果你每天使用 Claude Code、Codex 或任何 AI coding agent,你一定遇過這種情況:一個對話用了一個多小時之後,AI 開始忘記你剛剛講過的事情。你明明十分鐘前告訴它「這個函式不要動」,它卻又改了一遍。或者你同時在處理三個不同的功能,到了第四個小時,它搞混了 A 功能和 B 功能的邏輯。這不是 AI 變笨了,而是它的 context window 滿了。
這個問題有個名字,叫做「context rot」(脈絡腐壞)。資安領域的連續創業者佩德拉姆.阿米尼(Pedram Amini)把它形容為當前 AI 開發最大的瓶頸。他的判斷標準很具體:context 消耗到 60% 時就該警覺,到 80% 時這個 session 基本上已經報廢了。「即便你做壓縮,模型也不知道該保留哪些記憶,」他說,「結果就是它對你正在處理的事情失去焦點。」
Amini 不是一個 AI 原生的開發者。他是 OPSWAT 首席科學家,過去 20 年都在做資安研究、漏洞挖掘和逆向工程,創辦過四家公司並全數成功退場。但 2025 年感恩節那個週末,他和一群駭客朋友吃飯,桌上 12 個人有一半在抱怨同一件事:AI 終端機開太多,根本不知道哪個需要注意、哪個在做什麼。那天晚上他回家就開始動手,週日已經有了 V1,一週後就完全不用 IDE 了。他做出來的東西叫 Maestro。
Tab 即 Todo:用瀏覽器邏輯管理 Agent
Amini 對 context rot 的解法出奇直覺:每個新問題、新功能、新 bug 都開一個新的 tab。就像你用瀏覽器一樣,分頁就是待辦事項。他目前有 50 個 agent 定義和超過 350 個開啟中的 tab,每個 tab 都維護自己獨立的 context,互不干擾。
這個做法的關鍵好處是你可以隨時回頭。如果兩週前做的某個功能出了問題,你找到那個 tab,接續上次的對話繼續迭代,因為那個 session 裡存的就是那個功能最完整的脈絡。不用重新解釋背景,不用重新貼程式碼,更不會被其他功能的雜訊污染。Amini 把這比喻成指揮家的工作:「我把它命名為 Maestro,因為我感覺自己像一個指揮家。我在瘋狂揮舞指揮棒,底下有好幾組 agent 團隊在回應。」
這裡有一個思維的轉換。多數人使用 AI coding agent 的方式是「一對一長對話」:開一個 session,把所有事情塞進去,從早用到晚。Amini 的做法是「一對多短對話」:每個任務開新 context,用完就擱著,需要再回來。他形容自己的策略是「非常慷慨地開新 tab」(very liberal with opening tabs)。這和傳統軟體開發中「一個 IDE 搞定一切」的思維完全不同,更像是把 AI agent 當成一個分散式系統來管理。
Maestro 支援的 agent 提供者包括 Claude Code、OpenAI Codex、OpenCode 和 Factory,每個 agent 都有自己的 MCP 設定、hooks 和 skills 配置。這意味著你可以針對不同專案設定完全不同的工作環境:前端專案用一套,後端 API 用另一套,甚至同一個微服務架構的不同 repo 都可以各自有專屬 agent。
Auto-run:讓 Agent 在你睡覺時工作 21 小時
如果只是管理互動式的 tab,Maestro 充其量就是一個比較好用的終端機管理器。真正讓它成為「編排平台」的是第二個核心功能:auto-run,也就是無人值守的自動執行。
工作流是這樣的:你不是發送一個單一的 prompt,而是準備一份 Markdown 文件(或多份),裡面列出一系列待完成的任務。然後把這些文件丟給 Maestro,讓它開始工作。系統會自動為每一個任務建立全新的 context,完成後進入下一個。10 份文件各有 5 個任務,就是 50 個獨立的新 session,一個接一個執行,永遠不會撞到 context wall。
Amini 個人最長的無人值守紀錄是 21 小時。排行榜上的冠軍使用者跑了兩天半。他指出,一般來說 AI agent 在 5 小時持續執行後效能會掉到 30%,但 Maestro 不會遇到這個問題,因為每個任務都是全新的 context,沒有腐壞的可能。
這 21 小時在做什麼?是自動化測試覆蓋率的提升。Amini 快速寫了大量程式碼後發現回歸問題越來越多,於是設計了一個「文件迴圈」:找到沒有測試覆蓋的區域、寫測試案例、確認通過、檢查覆蓋率,如果低於 80% 就重來一次。從 0% 開始一路爬升,到 80% 時自動停止。其他常見的長時間任務包括新功能開發(約 6 小時)和市場研究(透過瀏覽器自動爬取資料、產出 Markdown 報告)。
他的日常節奏因此變成 24 小時循環:白天互動式工作,一邊處理昨晚的產出、一邊規劃今晚的任務;夜間讓 agent 無人值守地執行。Spec-driven development(規格驅動開發)是關鍵方法論:先和 Maestro 討論需求,等內建的信心指標到 80% 時,讓它自動產出 5 到 10 份 auto-run 文件,然後按下播放鍵。
從原型到生產:「打磨」才是真功夫
Amini 反覆強調一個多數人還沒充分理解的現實:用 AI 從零做出原型很容易,但要把原型變成數千人穩定使用的生產級軟體,完全是另一個層次的挑戰。
Maestro 本身就是活教材。這是一個 50 萬行的跨平台桌面應用,支援 Mac、Windows、Linux,可以本地執行也可以透過 SSH 遠端操作,光是端對端測試的排列組合就有 28 種。這種複雜度迫使他發展出一套紀律:把所有的 agents.md、Claude.md 設定檔都納入 repo,確保任何 contributor 都用相同的模式開發;建立嚴格的回歸測試流程;PR 進來後先由 CodeRabbit 和 Reptile 做自動分析,再由他自己的 Maestro 根據專案脈絡給出回饋,最後推進 release candidate 分支讓 bleeding edge 使用者先跑一段「浸泡時間」。
「生產級」和「企業級」之間還有一道鴻溝。Amini 把軟體成熟度分成三層:prototype(任何人都能做)、production-grade(數千人用不出問題)、enterprise-grade(推到付費客戶手上)。每一次跳躍,程式碼的複雜度、測試的嚴謹度、錯誤處理的周全度都要倍增。AI 可以幫你快速到達第一層,但從第一層到第二、第三層,需要的是人類的判斷力和耐心。他把這個過程叫做「putting polish」(打磨),並且坦承這是他白天最主要的工作:檢視昨晚 agent 的產出,一個按鈕一個按鈕地測試,每發現一個不對的地方就回報給 agent 修正。
我的觀察:Context 管理是 AI 協作的隱藏主戰場
作為一個每天使用 Claude Code 寫作和開發的人,聽 Amini 談 context rot 的那一刻我心裡想的是:「原來不只我一個人踩這個坑。」我曾經在一個長 session 裡同時處理文章寫作和網站部署,結果 Claude 開始把文章的段落邏輯和 Hugo 模板的 Go 語法混在一起回覆。那次之後我學會了一件事:每個任務開新對話,絕不貪圖「不用重新解釋」的方便。
Amini 的 60% 警戒線在我的經驗中也能印證。一個 Claude Code session 大概在 40 到 50 分鐘深度使用後就會開始出現微妙的偏移:不是完全離題,而是開始「忘記」你前面設定的約束條件。例如你說過「段落不要用破折號」,前 30 分鐘它確實遵守,到了第 50 分鐘又開始出現。這不是 AI 的缺陷,這是 context window 的物理限制,就像你不能要求一個人同時記住 200 頁的交代。
但 Amini 的實踐也點出了一個更深層的問題:我們現在使用 AI agent 的方式,本質上是在用人類的注意力去彌補工具的 context 限制。你得記住哪個 session 在做什麼、哪個需要你的輸入、哪個已經完成。當你只有兩三個並行任務時這還可以,但當你像 Amini 一樣有 350 個 tab 時,管理 agent 本身就變成了一份全職工作。這就是為什麼他需要一個「指揮台」。而我認為,這個需求不會只停留在開發者的世界。任何大量使用 AI 的知識工作者,遲早都會需要某種形式的 context 編排工具。
結語:指揮家的困境
Amini 自己也承認,他的終極目標是有一天「不再需要工作在 Maestro 上,而是純粹用它來完成其他工作」。但現實是,他還在投入大量時間開發和維護這個工具本身。這是一個有趣的悖論:你為了提升效率而打造的系統,本身就需要大量的維護效率。
更值得思考的是他對未來的判斷:「你不應該需要管理一個 agent 矩陣。你應該能用高層次的語言描述你的願景,加上幾張紙巾上的草圖,然後讓系統把它實現。」換句話說,「指揮家」這個角色本身也是過渡期的產物。當模型能力持續提升、多 agent 協調變得更自動化之後,我們可能不再需要手動編排,就像今天的程式設計師不需要手動管理記憶體分配一樣。
但在那個未來到來之前,能夠有意識地管理 context、系統性地拆分任務、建立人機協作的 24 小時節奏,就是當前最有競爭力的 AI 工作方式。不管你用的是 Maestro、Claude Code 的多 session 模式,還是自己的一套土法煉鋼,底層邏輯都是同一個:把大腦從「記住所有脈絡」中解放出來,讓正確的 context 出現在正確的 agent 面前。