AI 開發實戰

三個真的取代人類工作的 AI agent：ClawChief、Sidecast、Henry，加上監督它們的 CrabTrap

TWIST E2272 上三個 OpenClaw 重度使用者各自端出 agent demo：ClawChief 用 skill.md + cron 把自己變成 24 小時待命的 chief of staff；Sidecast 在播客直播旁掛四個 AI 主播；Henry 直接在 Reddit 找商機並自動上架 Gumroad。Brex CrabTrap 則回答了「誰來監督這些 agent」的問題。

2026 年 5 月 3 日 · 來源： This Week in Startups

三個真的取代人類工作的 AI agent：ClawChief、Sidecast、Henry，加上監督它們的 CrabTrap

本文整理自 This Week in Startups 第 2272 集《3 AI Agents That Actually Replaced Human Jobs》，2026 年 4 月 7 日上線。

{{< apple-podcast "tw/podcast/3-ai-agents-that-actually-replaced-human-jobs-e2272/id315114957?i=1000759945461" >}}

為什麼要從《清單革命》講起

播客一開頭，主持人 Jason Calacanis 拋了一個看似不相關的書名：阿圖．葛文德（Atul Gawande）的《清單革命》（The Checklist Manifesto）。葛文德是哈佛醫學院的外科醫師，他在 2009 年提出一個很不浪漫的觀察：手術房裡最危險的不是技術不夠好的醫師，而是技術夠好但跳過小步驟的醫師。一張寫著「手術前確認病人姓名、確認手術部位、確認過敏史」的清單，就能讓死亡率掉一半。

Jason 的延伸是：那些讓人類變得可靠的清單，現在剛好是讓 OpenClaw、Claude Cowork、Perplexity Comet 這些 agent 變可靠的同一套東西。「如果你能寫出一張清單，你就能讓你的『複製人』照著做，並且追究它做沒做。」

這個 frame 很重要，因為它解釋了接下來三個 demo 為什麼長得那麼像。ClawChief、Sidecast、Henry 三個產品的內在結構都是「角色描述 + 操作標準 + 觸發條件」，差別只在觸發條件不一樣。一個是定時觸發、一個是事件觸發、一個是持續掃描觸發。把這三種範式看懂，你大概就掌握了 2026 年 agent 應用層的主要骨架。所以接下來，我把三個 demo 各自拆一遍，順便講清楚最後一個被現場集體點名的東西：誰來監督這些 agent 不要闖禍。

範式一：ClawChief，skill.md 加 cron 的「定時陣列」

Ryan Carson 的 ClawChief 是三個 demo 裡最容易複製的一個，因為他直接把整個設定開源到 GitHub 的 snarktank/clawchief。架構說穿了就兩層。第一層是一份份 skill.md，每個檔案描述一個角色（行政助理、業務開發、行銷經理）的操作標準：什麼信件要立刻回、什麼要批次處理、什麼直接 archive、什麼要升級給人類。第二層是 cron job，定時觸發對應的 skill。例如行政助理的 skill 每 15 分鐘被叫醒一次，主動去掃信箱、行事曆、GitHub CLI、會議安排清單。

這個架構為什麼威力大？因為它把 agent 從「等你下指令的聊天工具」翻轉成「主動運作的員工」。Ryan 在現場說，他的那隻 ClawChief 化名 R2，過去一個月已經在沒有他指示的情況下，幫他敲定了三場真實會議：對方寄信來、R2 評估這個人的優先級、跟對方來回幾輪敲定時間、確認後才丟進 Ryan 行事曆。Ryan 自己只在最後收到結果。

更關鍵的是 skill.md 裡寫的東西。這不是「請幫我處理信件」這種廢話，而是一份非常細的操作守則。一段「自動處理／起草／升級／忽略」的優先級判斷規則、一張「VIP／投資人／合作夥伴／陌生人／推銷」的對應表、一條「如果信件牽涉超過 $500 的承諾就一定要升級」的紅線。這些規則 Ryan 過去要訓練人類助理花好幾個月，現在寫成 markdown 一次到位。Ryan 講了一句很扎心的話：「我剛把 ClawChief 部署成我的幕僚長。下一步我要部署另一個 OpenClaw 當行銷經理。等你的 OpenClaw 都優化好了之後，你就會去『請一個人類來操作這個 OpenClaw』，而不是反過來。」雇用順序徹底反了。

這裡有個關鍵伏筆：cron 觸發 + skill.md 這個範式，要能放心 24 小時跑，前提是 agent 不會做出蠢事。這也是為什麼 ClawChief v2 的設計受到 Brex CEO Pedro Franceschi 一席話的啟發。先記住這個伏筆，等下會回頭講。

範式二：Sidecast，即時 transcript 上面的多角色覆層

Yazan Alirhayim 的 Sidecast 是另一種完全不同的觸發模型。它不是定時的，是事件驅動的：只要有人講話，agent 就會回應。具體做法是把直播或播客的逐字稿即時餵給 LLM，在側邊欄起多個「人物 persona」，每個 persona 有自己的提示詞、回應長度、出場頻率，可以個別開關「啟用網路搜尋」。Yazan 在現場 demo 了四個 persona：事實查核員（fact checker）、檔案管理員（archivist，會去翻過去節目找相似案例）、狙擊手（sniper，丟一句金句嘲諷）、惡棍（menace，找碴）。

這個架構真正聰明的地方在「分工的彈性」。同一個底層架構，你可以拿來做完全不同的事。Yazan 自己在 demo 裡就示範了三種用法：給播客主持人當即時編輯助理、給 Twitch 主播當虛擬共同主持人、Jason 立刻接話說「我會把它變成戴著 Meta 智能眼鏡時的『約會教練』，講話前先看一下提示」。同一套技術骨架，套不同的 persona 就能做出截然不同的產品。Yazan 自己也說：「我本來預期啟用網路搜尋會讓延遲變超慢，結果它意外地快。」即時 agentic 搜尋這件事，比現場任何人想像的都更接近可量產的程度。

對應回讀者自己的工作，Sidecast 範式真正的啟發是：你日常工作裡有沒有任何一個「持續發生的資訊流」，需要被即時標註、查核、補充？如果有，這個範式幾乎都套得上。技術支援的客服群組、業務電話會議、新聞編輯室的選稿會議、產品的設計評審⋯⋯這些場景過去都得仰賴一個「資深老人」憑記憶去抓重點，現在可以把那個人腦袋裡的判斷拆成幾個 persona，並排在側邊跑。

範式三：Henry，從找商機一路打到出貨的 swarm

Alex Finn 的 Henry 把 agent 推到了另一個量級。它不是處理你既有的工作，而是去找你還沒做、但應該做的工作。架構是一群 agent 持續爬 Reddit、X、YouTube、Product Hunt、各種討論區，找出「沒被解決的需求」，然後丟一份完整的商業計畫書到你信箱：市場規模分析、競爭壁壘評估、可行性、進入時機。

如果你按下「同意」，Henry 接手執行。它會自己寫程式做產品、上架到 Gumroad、操作 Facebook／X／Instagram 廣告投放、安排電子郵件行銷。Alex 在播客上講的那個案例最炸：「Henry 跑著跑著看到一個需求，它判斷這個用 3D 列印的小東西就能解決，於是它自己去找一間 3D 列印工廠，把產品列印出來、安排出貨給使用者。整個過程我沒有出手。」整條供應鏈，從發現問題到實體出貨，被一隻 agent swarm 串起來。

Henry 的安全設計是只留一個關卡：在任何東西「對外公開」之前，它必須得到 Alex 一次人類同意。內部研究、內部判斷、內部草稿都不需要批准；但從某個時刻起要刷信用卡、要對外發訊、要投廣告、要上架，這條線需要人類按一次按鈕。這個設計不是隨便決定的，是 Alex 跑了好幾輪才確認的「最低介入點」：人類同意必須夠少，少到你會願意每天給；又必須夠重，重到 agent 不會把你的 Stripe 帳戶刷爆。

把這三個 demo 並排看：ClawChief 是「定時陣列」、Sidecast 是「事件回應」、Henry 是「持續掃描」。這三種觸發範式涵蓋了大多數你能想到的 agentic 應用場景。如果你正在思考自己的工作裡哪個流程適合做 agent，可以先用這三個範式對號入座。

那誰來監督這些 agent？Brex CrabTrap 的答案

到這裡會冒出一個問題：當 agent 一天可以呼叫成千上萬次外部 API、可以刷信用卡、可以發信給真實的人，誰來確保它沒有失控？播客現場特別放了一段 Brex 共同創辦人暨執行長 Pedro Franceschi 在 Core Memory Podcast 的訪談。他的答案非常聰明：「監督一個 agent 的最佳方法，不是讓人類盯著看，而是讓另一個 LLM 來盯。」

Brex 為此打造了一個叫 CrabTrap 的開源工具，4 月 21 日已經正式釋出到 GitHub（brexhq/CrabTrap）。它的本質是一個 HTTP/HTTPS 代理：你在 agent 的環境變數設定 HTTP_PROXY 和 HTTPS_PROXY 指向 CrabTrap，agent 所有對外的網路請求會先經過 CrabTrap，CrabTrap 用一個「裁判 LLM」評估這個請求是否符合這個 agent 應該被允許的行為模式。如果不符合，直接在網路層攔截，agent 連發出去的機會都沒有，而且 agent 自己不知道被攔了。

Pedro 在那段 clip 裡的原話：「我們發現你不能用人去 review 每一個 agent action，根本來不及。所以我們做了 CrabTrap，效果是把 agent 對外的所有流量導到另一個 LLM，那個 LLM 是 HTTP proxy，會篩過所有流量。」這個概念之所以成立，是因為它用了一個叫「LLM-as-judge」的方法：判斷 agent 該不該做某件事，本身就是一個語言任務，所以另一個 LLM 是合適的判官。這跟「確定性的規則攔截」（例如 firewall）不一樣，可以處理非結構化、語境化的判斷，例如「這封招募信的措辭會不會冒犯到對方」。

CrabTrap 上線兩週就收到產業熱烈回應，因為它解決了「如何讓 agent 安心放生」這個問題。回到 Ryan Carson 設計 ClawChief v2 的故事：他就是聽完 Pedro 這段訪談後，把 CrabTrap 概念內建進 ClawChief 的下一版設計，讓他敢讓 R2 真的去敲 VIP 會議、發外部信。沒有這層保險，cron + skill 範式在生產環境是不敢開的。

細節控的人，會在 agent 時代被放大十倍

把整集播客的核心 thesis 收回來：寫得出清單的人，會在 agent 時代變得特別值錢。Jason Calacanis 那段話我抄一次：「做一張清單對人類就有用。但做一張清單對 OpenClaw 更有用，對 Claude Cowork 更有用，對 Perplexity Comet 更有用。如果你能做出清單，你就能讓你的複製人照清單跑，並且追究它做沒做。」

這個觀察跟我們過去十年聽到的「軟性技能比硬技能重要」「願景比執行重要」剛好相反。在 agent 時代，反而是「能不能把工作步驟拆得很細、把判斷規則寫得很明確」這種看起來很無聊的能力，會被乘上 10 倍。因為你寫一次清單，可以開十個 OpenClaw 並行去跑。你的價值不再是「會做這件事」，而是「會教十個複製人做這件事」。

對臺灣的中階白領、PM、營運主管，這個轉變最直接的意義是：你不需要學寫程式才能做 agent。你需要學的是把你既有工作的 SOP 寫成 markdown。把你的判斷邏輯、優先級、紅線寫到一份 skill.md 裡，丟給 OpenClaw 或 ClawChief，它會幫你跑。這是門檻最低、學習曲線最平緩、但效益放大最猛的切入點。試一次就知道差別。