三個真的取代人類工作的 AI agent:ClawChief、Sidecast、Henry,加上監督它們的 CrabTrap

TWIST E2272 上三個 OpenClaw 重度使用者各自端出 agent demo:ClawChief 用 skill.md + cron 把自己變成 24 小時待命的 chief of staff;Sidecast 在播客直播旁掛四個 AI 主播;Henry 直接在 Reddit 找商機並自動上架 Gumroad。Brex CrabTrap 則回答了「誰來監督這些 agent」的問題。

三個真的取代人類工作的 AI agent:ClawChief、Sidecast、Henry,加上監督它們的 CrabTrap

本文整理自 This Week in Startups 第 2272 集《3 AI Agents That Actually Replaced Human Jobs》,2026 年 4 月 7 日上線。

{{< youtube g5LxEPGLDsc >}}

{{< apple-podcast "tw/podcast/3-ai-agents-that-actually-replaced-human-jobs-e2272/id315114957?i=1000759945461" >}}


為什麼要從《清單革命》講起

播客一開頭,主持人 Jason Calacanis 拋了一個看似不相關的書名:阿圖.葛文德(Atul Gawande)的《清單革命》(The Checklist Manifesto)。葛文德是哈佛醫學院的外科醫師,他在 2009 年提出一個很不浪漫的觀察:手術房裡最危險的不是技術不夠好的醫師,而是技術夠好但跳過小步驟的醫師。一張寫著「手術前確認病人姓名、確認手術部位、確認過敏史」的清單,就能讓死亡率掉一半。

Jason 的延伸是:那些讓人類變得可靠的清單,現在剛好是讓 OpenClaw、Claude Cowork、Perplexity Comet 這些 agent 變可靠的同一套東西。「如果你能寫出一張清單,你就能讓你的『複製人』照著做,並且追究它做沒做。」

這個 frame 很重要,因為它解釋了接下來三個 demo 為什麼長得那麼像。ClawChief、Sidecast、Henry 三個產品的內在結構都是「角色描述 + 操作標準 + 觸發條件」,差別只在觸發條件不一樣。一個是定時觸發、一個是事件觸發、一個是持續掃描觸發。把這三種範式看懂,你大概就掌握了 2026 年 agent 應用層的主要骨架。所以接下來,我把三個 demo 各自拆一遍,順便講清楚最後一個被現場集體點名的東西:誰來監督這些 agent 不要闖禍。

範式一:ClawChief,skill.md 加 cron 的「定時陣列」

Ryan Carson 的 ClawChief 是三個 demo 裡最容易複製的一個,因為他直接把整個設定開源到 GitHub 的 snarktank/clawchief。架構說穿了就兩層。第一層是一份份 skill.md,每個檔案描述一個角色(行政助理、業務開發、行銷經理)的操作標準:什麼信件要立刻回、什麼要批次處理、什麼直接 archive、什麼要升級給人類。第二層是 cron job,定時觸發對應的 skill。例如行政助理的 skill 每 15 分鐘被叫醒一次,主動去掃信箱、行事曆、GitHub CLI、會議安排清單。

這個架構為什麼威力大?因為它把 agent 從「等你下指令的聊天工具」翻轉成「主動運作的員工」。Ryan 在現場說,他的那隻 ClawChief 化名 R2,過去一個月已經在沒有他指示的情況下,幫他敲定了三場真實會議:對方寄信來、R2 評估這個人的優先級、跟對方來回幾輪敲定時間、確認後才丟進 Ryan 行事曆。Ryan 自己只在最後收到結果。

更關鍵的是 skill.md 裡寫的東西。這不是「請幫我處理信件」這種廢話,而是一份非常細的操作守則。一段「自動處理/起草/升級/忽略」的優先級判斷規則、一張「VIP/投資人/合作夥伴/陌生人/推銷」的對應表、一條「如果信件牽涉超過 $500 的承諾就一定要升級」的紅線。這些規則 Ryan 過去要訓練人類助理花好幾個月,現在寫成 markdown 一次到位。Ryan 講了一句很扎心的話:「我剛把 ClawChief 部署成我的幕僚長。下一步我要部署另一個 OpenClaw 當行銷經理。等你的 OpenClaw 都優化好了之後,你就會去『請一個人類來操作這個 OpenClaw』,而不是反過來。」雇用順序徹底反了。

這裡有個關鍵伏筆:cron 觸發 + skill.md 這個範式,要能放心 24 小時跑,前提是 agent 不會做出蠢事。這也是為什麼 ClawChief v2 的設計受到 Brex CEO Pedro Franceschi 一席話的啟發。先記住這個伏筆,等下會回頭講。

範式二:Sidecast,即時 transcript 上面的多角色覆層

Yazan Alirhayim 的 Sidecast 是另一種完全不同的觸發模型。它不是定時的,是事件驅動的:只要有人講話,agent 就會回應。具體做法是把直播或播客的逐字稿即時餵給 LLM,在側邊欄起多個「人物 persona」,每個 persona 有自己的提示詞、回應長度、出場頻率,可以個別開關「啟用網路搜尋」。Yazan 在現場 demo 了四個 persona:事實查核員(fact checker)、檔案管理員(archivist,會去翻過去節目找相似案例)、狙擊手(sniper,丟一句金句嘲諷)、惡棍(menace,找碴)。

這個架構真正聰明的地方在「分工的彈性」。同一個底層架構,你可以拿來做完全不同的事。Yazan 自己在 demo 裡就示範了三種用法:給播客主持人當即時編輯助理、給 Twitch 主播當虛擬共同主持人、Jason 立刻接話說「我會把它變成戴著 Meta 智能眼鏡時的『約會教練』,講話前先看一下提示」。同一套技術骨架,套不同的 persona 就能做出截然不同的產品。Yazan 自己也說:「我本來預期啟用網路搜尋會讓延遲變超慢,結果它意外地快。」即時 agentic 搜尋這件事,比現場任何人想像的都更接近可量產的程度。

對應回讀者自己的工作,Sidecast 範式真正的啟發是:你日常工作裡有沒有任何一個「持續發生的資訊流」,需要被即時標註、查核、補充?如果有,這個範式幾乎都套得上。技術支援的客服群組、業務電話會議、新聞編輯室的選稿會議、產品的設計評審⋯⋯這些場景過去都得仰賴一個「資深老人」憑記憶去抓重點,現在可以把那個人腦袋裡的判斷拆成幾個 persona,並排在側邊跑。

範式三:Henry,從找商機一路打到出貨的 swarm

Alex Finn 的 Henry 把 agent 推到了另一個量級。它不是處理你既有的工作,而是去找你還沒做、但應該做的工作。架構是一群 agent 持續爬 Reddit、X、YouTube、Product Hunt、各種討論區,找出「沒被解決的需求」,然後丟一份完整的商業計畫書到你信箱:市場規模分析、競爭壁壘評估、可行性、進入時機。

如果你按下「同意」,Henry 接手執行。它會自己寫程式做產品、上架到 Gumroad、操作 Facebook/X/Instagram 廣告投放、安排電子郵件行銷。Alex 在播客上講的那個案例最炸:「Henry 跑著跑著看到一個需求,它判斷這個用 3D 列印的小東西就能解決,於是它自己去找一間 3D 列印工廠,把產品列印出來、安排出貨給使用者。整個過程我沒有出手。」整條供應鏈,從發現問題到實體出貨,被一隻 agent swarm 串起來。

Henry 的安全設計是只留一個關卡:在任何東西「對外公開」之前,它必須得到 Alex 一次人類同意。內部研究、內部判斷、內部草稿都不需要批准;但從某個時刻起要刷信用卡、要對外發訊、要投廣告、要上架,這條線需要人類按一次按鈕。這個設計不是隨便決定的,是 Alex 跑了好幾輪才確認的「最低介入點」:人類同意必須夠少,少到你會願意每天給;又必須夠重,重到 agent 不會把你的 Stripe 帳戶刷爆。

把這三個 demo 並排看:ClawChief 是「定時陣列」、Sidecast 是「事件回應」、Henry 是「持續掃描」。這三種觸發範式涵蓋了大多數你能想到的 agentic 應用場景。如果你正在思考自己的工作裡哪個流程適合做 agent,可以先用這三個範式對號入座。

那誰來監督這些 agent?Brex CrabTrap 的答案

到這裡會冒出一個問題:當 agent 一天可以呼叫成千上萬次外部 API、可以刷信用卡、可以發信給真實的人,誰來確保它沒有失控?播客現場特別放了一段 Brex 共同創辦人暨執行長 Pedro Franceschi 在 Core Memory Podcast 的訪談。他的答案非常聰明:「監督一個 agent 的最佳方法,不是讓人類盯著看,而是讓另一個 LLM 來盯。」

Brex 為此打造了一個叫 CrabTrap 的開源工具,4 月 21 日已經正式釋出到 GitHub(brexhq/CrabTrap)。它的本質是一個 HTTP/HTTPS 代理:你在 agent 的環境變數設定 HTTP_PROXYHTTPS_PROXY 指向 CrabTrap,agent 所有對外的網路請求會先經過 CrabTrap,CrabTrap 用一個「裁判 LLM」評估這個請求是否符合這個 agent 應該被允許的行為模式。如果不符合,直接在網路層攔截,agent 連發出去的機會都沒有,而且 agent 自己不知道被攔了。

Pedro 在那段 clip 裡的原話:「我們發現你不能用人去 review 每一個 agent action,根本來不及。所以我們做了 CrabTrap,效果是把 agent 對外的所有流量導到另一個 LLM,那個 LLM 是 HTTP proxy,會篩過所有流量。」這個概念之所以成立,是因為它用了一個叫「LLM-as-judge」的方法:判斷 agent 該不該做某件事,本身就是一個語言任務,所以另一個 LLM 是合適的判官。這跟「確定性的規則攔截」(例如 firewall)不一樣,可以處理非結構化、語境化的判斷,例如「這封招募信的措辭會不會冒犯到對方」。

CrabTrap 上線兩週就收到產業熱烈回應,因為它解決了「如何讓 agent 安心放生」這個問題。回到 Ryan Carson 設計 ClawChief v2 的故事:他就是聽完 Pedro 這段訪談後,把 CrabTrap 概念內建進 ClawChief 的下一版設計,讓他敢讓 R2 真的去敲 VIP 會議、發外部信。沒有這層保險,cron + skill 範式在生產環境是不敢開的。

細節控的人,會在 agent 時代被放大十倍

把整集播客的核心 thesis 收回來:寫得出清單的人,會在 agent 時代變得特別值錢。Jason Calacanis 那段話我抄一次:「做一張清單對人類就有用。但做一張清單對 OpenClaw 更有用,對 Claude Cowork 更有用,對 Perplexity Comet 更有用。如果你能做出清單,你就能讓你的複製人照清單跑,並且追究它做沒做。」

這個觀察跟我們過去十年聽到的「軟性技能比硬技能重要」「願景比執行重要」剛好相反。在 agent 時代,反而是「能不能把工作步驟拆得很細、把判斷規則寫得很明確」這種看起來很無聊的能力,會被乘上 10 倍。因為你寫一次清單,可以開十個 OpenClaw 並行去跑。你的價值不再是「會做這件事」,而是「會教十個複製人做這件事」。

對臺灣的中階白領、PM、營運主管,這個轉變最直接的意義是:你不需要學寫程式才能做 agent。你需要學的是把你既有工作的 SOP 寫成 markdown。把你的判斷邏輯、優先級、紅線寫到一份 skill.md 裡,丟給 OpenClaw 或 ClawChief,它會幫你跑。這是門檻最低、學習曲線最平緩、但效益放大最猛的切入點。試一次就知道差別。