當 AI 開始幫 AI 寫 skill:Trajectory RL 把 Claude Code 的 skill.md 變成代理人競技場

Anthropic 在 2025 年丟出來的 skill.md 看起來只是一個寫了字的文字檔,但 Trajectory RL 把它變成代理人之間互相競爭的市場。第一季開賽一週,AI 寫出來的 skill 就超越了市場上最強的人類版本,臺灣開發者要趕在這扇窗關上之前進場。

當 AI 開始幫 AI 寫 skill:Trajectory RL 把 Claude Code 的 skill.md 變成代理人競技場

本文整理自 This Week in Startups 第 2279 集《SpaceX and Cursor team up to topple Claude Code》,2026 年 4 月 22 日上線。

{{< youtube Xhl8gVk3yrc >}}

{{< spotify "episode/4bxEcL5k8q5IZxJJmEjgzR" >}}

{{< apple-podcast "tw/podcast/spacex-and-cursor-team-up-to-topple-claude-code-e2279/id315114957?i=1000763155487" >}}


Lon 在自家後院刻了一個 YouTube 標題 skill

TWiST 第 2279 集這天 Jason Calacanis 不在,由 Alex Wilhelm 跟 Lon Harris 代班。Lon 在節目裡分享了一個小故事,每個用過 Claude Code 的人聽完都會點頭。他想要一個能自動產生 YouTube 影片標題的工具,沒寫過程式,就跟 Claude 邊聊邊 vibe-code 出一個 skill.md 文字檔。第一個版本送進去跑,產出來的標題全都沒有大寫,他回去跟 Claude 說「忘了大寫」,Claude 改完。第二個版本破折號太多,他又回去跟 Claude 說「破折號太多」,Claude 又改。來回幾輪,他得到一個「夠用、幾乎可以放進 production 的」標題產生器。

這個過程聽起來很尋常,因為過去半年內每個試過 Anthropic skill 系統的開發者都這樣做過事情。你寫一行人話告訴 Claude 你想要什麼,跑跑看不對就再丟一行,反覆磨到能用為止。但 Lon 在節目上分享這段故事的時候,旁邊坐著的 Trajectory RL 創辦人暨執行長 Ning Ren 補了一句很重要的話:「這個你跟模型來回 iterate 的迴圈,很快就不會由你來做了。」這句話是這篇文章接下來要拆的故事,因為它直接挑戰了過去半年所有「自己刻 skill」的開發者習以為常的工作方式。

一個寫了字的文字檔,憑什麼是新的軟體單元

要理解 Ning 那句話為什麼重要,要先回到 2025 年下半年 Anthropic 公開 skill 系統的時候。同集另一位主持人 Alex Wilhelm 在節目上老實承認,他第一個反應是「就是一個寫了字的文字檔嘛,這有什麼用?」這個判斷錯得很徹底。skill.md 表面看起來簡單,但它把一個原本只存在對話裡的東西外部化成檔案:你過去要對代理人說的所有「這件事該怎麼做」,從每次對話裡的提示詞,變成可以版本控制、可以共享、可以被別人接手繼續優化的程式碼資產。

這個轉換的影響在 2026 年第一季變得越來越明顯。Claude Code、Cursor、Codex、加上 OpenClaw、Hermes 這些開源 harness(代理人骨架,負責處理檔案讀寫、工具呼叫、流程路由),骨架本身越來越標準化,真正讓代理人會做特定事情的智慧反而都跑進 skill.md 裡。Anthropic 自己對 skill 的官方定位,或是 Cursor 把 Composer 2 包給開發者的方式,都指向同一件事:未來代理人世界裡的軟體單元,不是程式碼檔案,是用人話寫的指令包。

對開發者社群來說,這代表寫 skill 已經是一個獨立的技能。會寫 Python 不一定會寫 skill;會調 prompt 不一定會寫 skill。skill 是一種介於程式碼跟自然語言中間的怪物。要寫得好,你得同時懂代理人會怎麼讀、模型會怎麼解釋、工具會怎麼回應,以及失敗的時候會壞在哪。這就是為什麼 Lon 那種 vibe-code 法雖然能用,但永遠到不了「真正在 production 跑」的那一層。skill 的品質有上限,而手刻的上限不夠高。

Trajectory RL 把這件事變成競技場

這就是 Trajectory RL 想解的問題。Ning 把這個專案做成 BitTensor 區塊鏈上的第 11 號子網(subnet 11),把寫 skill 變成一場去中心化的競賽。機制聽起來很乾淨:所有參賽者拿同一個底層模型、同一個代理人骨架、同一組沙盒環境,能變動的只有 skill.md 那個檔案。然後丟一組叫 ClawBench 的確定性測試進去評分,誰寫的 skill 在沙盒裡跑得又準又便宜,分數就高。

這裡值得拆兩個設計細節。第一個是「同一個模型 + 同一個骨架」這個約束,把所有可能的差異變因都綁住,剩下的只有 skill 本身。這讓評分的乾淨度比一般 LLM benchmark 高很多,因為你在比的不是模型誰強,而是「同一個 GPT-5 或 Claude,搭配誰寫的指令包能做得更好」。第二個是 ClawBench 用正規表達式(regex)做 rubric 檢查,輸入輸出可以被機械驗證,沒有人類評審的主觀問題,跑一萬次的成本接近零。這兩件事加起來,第一次讓 skill 的品質有了客觀座標。

更巧妙的是先進者保護機制。新提交的 skill 必須比現任冠軍便宜至少 10%,才有資格挑戰。這個設計把競賽從「越花越多 token 越好」拉回到「同樣品質下越省越好」,剛好對應到當下 Anthropic 限流、Cursor 也快推出按用量收費的市場現實。Trajectory RL 在 GitHub 上的官方描述把這套東西定位成「the open factory for AI agent skills」,而它跟主流 harness 的相容性也很完整:Claude Code、Cursor、Hermes、OpenClaw 都能直接接,不會被綁在任何單一廠商身上。

第一季主題:會自己學的 skill,一週超越市場最強

Trajectory RL 的第一季在 4 月中正式開賽,主題是 self-learning skills,也就是那種會從自己的錯誤裡學習、自己修正自己的 skill。Ning 在節目上提到,開賽不到一週,前幾名的作品已經超越了市場上目前能找到的同類最強版本。這個說法是節目單向引述,外部還沒有獨立驗證,但符合 BitTensor 子網的常見現象:競爭機制設計對的時候,前幾週的進步速度會比任何單一集中式團隊快好幾個數量級,因為同時有幾百個礦工在用各自的私房技巧硬尬。

第一季為什麼挑「會自己學的 skill」當題目,背後有一個賭注。Ning 的講法是:當 skill 的編寫者從人類變成代理人,需要的第一個能力就是「能從失敗裡爬起來」。Lon 那個 YouTube 標題 skill 的迴圈裡,是 Lon 自己提供失敗訊號(「忘了大寫」、「破折號太多」)。換成代理人來寫 skill,誰來提供這個訊號?答案是讓 skill 自己包進這個能力,跑壞的時候自己讀錯誤訊息、自己修、自己重跑。這是把 Lon 那個 vibe-code 迴圈內化進 skill 本身。

Ning 在訪談裡還丟了一個更大的願景:「未來大多數 skill 不會由人類寫,而是由 AI 代理人寫。」這句話聽起來像每天都聽得到的 AI 樂觀派發言,但配合 Trajectory RL 的具體機制看就不一樣了。如果有一個競技場每天讓幾十到上百個 AI 代理人比賽寫 skill、評分、淘汰,淘汰者的失敗模式還會回流變成下一輪的訓練資料,那「AI 寫 skill 比人類寫的好」這件事就不是預言,是時間問題。Trajectory RL 第二季預計一個月內推出,會探索更多 skill 類型。

肥 skill、瘦 harness 與 skill 變現的未來

Ning 在節目上提的另一個概念叫「肥 skill、瘦 harness」(fat skills, thin harness)。它的意思是:代理人骨架的工作就是負責檔案 I/O、工具呼叫、流程路由這些 plumbing,盡量輕薄;真正讓代理人有用的智慧、特定領域的 know-how、跟使用者環境的整合,都應該住在 skill 裡。這個架構選擇有一個直接的商業推論:如果智慧住在 skill 空間,那 skill 就是有人會付錢買的東西,而 harness 永遠是免費或低利潤的基礎設施。

Alex Wilhelm 在節目尾段丟了一個我覺得很妙的變現提案:Humble Bundle for skills。Humble Bundle 是 PC 玩家熟悉的模式,付一筆 15 到 100 美元的錢,買到一個策展過的遊戲包,順便支持獨立開發者跟慈善。Alex 想像的版本是:付 30 美元買一個「資深軟體工程師必備 skill 包」,裡面有十幾個被驗證過品質的 skill.md,你解壓縮丟進 Claude Code 或 Cursor 就能用。如果你喜歡某個 skill 寫得好的作者,多丟錢也行。這個模式跑得通的前提是 skill 的品質要可以被獨立驗證,而 Trajectory RL 那個競技場的排名榜,剛好就是這個驗證機制。

把這兩件事接起來,下一個 18 個月的 skill 經濟圖就出來了:底層是各家 harness(Claude Code、Cursor、Codex、OpenClaw 等)競爭著做最低摩擦的整合層;中間是 Trajectory RL 這類競技場提供品質訊號;最上層會長出 skill 的市集、訂閱包、買斷授權各種變現形式,賣的人從現在的個別開發者,慢慢轉變成 AI 代理人本身。這個生態的雛形現在就在浮現,跟 90 年代 PC 軟體從個人作坊長到 Microsoft Store、手機從 utility 長到 App Store,是同一個劇本在不同時代的版本。

我的觀察:臺灣開發者要趕在這扇窗關上之前進場

我覺得這件事對臺灣的開發者有一個很現實的時間窗。如果 Ning 的賭注成立,未來大部分的 skill 會由 AI 寫,那「會手寫高品質 skill」這個技能的市場價值會在 12 到 24 個月內被擠壓。但反過來說,現在到明年中是一個短暫的高溢價窗口:你今天用 Claude Code、Cursor 累積出來的 skill 庫,如果寫得夠好、能解決真實場景,可以走 Humble Bundle 那種包裝賣給社群、可以開源換 GitHub star 變成個人品牌、甚至可以拿去 Trajectory RL 的競技場跑分數,看能不能進前 100 名。

但這扇窗會關上。當 Trajectory RL 第一季開賽就有作品超越市場 SOTA 的時候,意思是「人類寫得比 AI 寫得更好」這個前提,已經在某些細分領域不成立了。等到 Trajectory RL 跑完三、四季、競技場累積夠多訓練資料,市面上開源的高品質 skill 會多到一個程度,自己手寫一個普通水準的 skill 已經沒有經濟意義,正如同 2026 年的今天沒有人會自己寫一個基礎的網頁 UI library。中間這段短暫過渡期會像 2022 到 2024 年的 prompt engineering 黃金期,看起來門檻很低,但真的賺得到錢的人會被快速淘汰。

我自己現在的做法是兩條腿走路:一條腿是繼續 vibe-code 自己日常用的 skill,目的純粹是把工作效率提上去;另一條腿是挑兩三個我有業界 know-how 的領域(內容寫作、podcast 整理、開發者文件生成)認真寫成可分享的 skill 包,先在自己的圈子裡跑,看哪一個有人真的想付錢用。如果你也在用 Claude Code 或 Cursor,現在不是觀望的時候,是趕在 AI 開始量產 skill 之前,把你獨特的領域知識變成可以被市場驗證的指令包。十二個月後再做這件事,可能就晚了。