AI 開發實戰

「模型會把你的 harness 當早餐吃掉」——Cat Wu 談 Anthropic 怎麼為下一代模型造產品

Anthropic 產品總監 Cat Wu 拆解他們的核心產品哲學：每一次模型升級都回去刪掉 system prompt 裡的拐杖、先蓋好「還不能用」的產品等模型追上、把 Claude 的性格當成首要產品功能。從 to-do list 工具到 slash code review，從單一任務到 50 個並行代理，這些做法挑戰了傳統工程紀律，也是為什麼 Anthropic 能在每代模型上線時就立刻拿出領先對手的產品。

2026 年 5 月 3 日 · 來源： Lenny's Podcast

「模型會把你的 harness 當早餐吃掉」——Cat Wu 談 Anthropic 怎麼為下一代模型造產品

本文整理自《Lenny's Podcast》2026 年 4 月 23 日播出的單集，受訪者為 Anthropic 產品總監 Cat Wu，主管 Claude Code 與 Cowork 兩條產品線。本系列共三篇，這是第三篇談「為下一代模型造產品」的工程哲學，第一篇談 PM 角色重塑與產品品味，第二篇談使命作為決策仲裁機制。

{{< apple-podcast "tw/podcast/how-anthropics-product-team-moves-faster-than-anyone/id1627920305?i=1000763270413" >}}

「模型會把你的 harness 當早餐吃掉」

Lenny Rachitsky 在訪談中講了一句後來在 X（Twitter）瘋傳的話：「模型會把你的 harness 當早餐吃掉。」這句聽起來像玩笑的話，其實道破了 Anthropic 內部過去兩年累積出來的核心產品哲學：當你為了補強模型某個弱點而蓋起來的鷹架（也就是 harness），下一代模型一上線就會直接把它吃掉。聰明的產品團隊不會等到那天才驚訝，而是會主動每隔一段時間就回去把鷹架拆掉。

Cat Wu 在訪談裡用一個非常具體的例子展示了這個過程。Claude Code 剛推出時，使用者常常請它做大型重構（refactor），它會說「好，我需要修改這 20 個呼叫點」，但實際上只改了 5 個就停下來。團隊裡的工程師 Sid 想出一個解法：模仿人類的工作方式，給模型一個「待辦清單」（to-do list）工具，讓它把每一個要修改的呼叫點列下來、一個一個完成。這個工具加上去之後，Claude 真的能把全部 20 個呼叫點修完。

但故事不只到這裡。Cat 接著說：「Opus 4 出來之後，我們發現完全不需要逼它使用這個待辦清單，它會自己自然地用。對於早期的模型，我們必須一直提醒它『你完成了清單上的所有項目嗎？沒做完就不能停』。但對於後來的模型，不需要任何 prompt，它就會自然地做完清單上的每一件事。」這個例子完美演示了「拐杖」如何從必要、變成可選、再變成多餘。而 Anthropic 的處理方式，是在每一次模型發布時主動去檢視。

「我們確實在每次推出新模型的時候都這樣做，」Cat 說，「我們會把整段 system prompt 從頭到尾讀一遍，反思每一個段落：這個提醒，模型現在還需要嗎？如果不需要，就拿掉。」這個動作聽起來像是維運瑣事，但它背後藏著一個更大的產品判斷：當模型能力不斷躍升，許多原本被視為功能的「行為強制」其實是在拖累更聰明的版本，必須及時清理才不會變成包袱。

Build before it works：把「還不能用」當成出貨策略

如果說「拆鷹架」是後手動作，那 Anthropic 的另一個產品哲學就是更主動的版本：在模型還不能讓某個產品穩定運作之前，就先把產品蓋起來。Cat 把這套邏輯講得非常清楚：「蓋出那些『還不能用』的產品其實很重要，這樣你才會知道，要讓這個產品真的能用，到底缺什麼？然後當最新的模型出來，你可以直接把它換進你已經做好的原型，看看新模型有沒有把那個缺口補上。」

這套思維最具體的例子，就是 Claude Code 的 slash code review 功能。Cat 解釋，Anthropic 早就「夢想 Claude 能成為一個可靠的程式碼審核者，可以讓我們有信心地相信它抓到了大多數的 bug」。他們試了好幾次，也曾經推出過比較簡單的版本，但效果都不夠好。直到 Opus 4.5、Opus 4.6、以及 Sonnet 4.6 這幾代模型，他們才終於覺得「OK，這個程式碼審核已經好到我們的工程團隊真的會把它當作合併 PR 的必要關卡」。她描述新模型解鎖的能力：可以同時跑多個程式碼審核代理，平行掃過整個 code base，並把真正需要工程師處理的問題綜合起來。

Lenny 順著這個思路給出了精準的歸納：「這是這個 podcast 上反覆出現的趨勢，做出一個未來六個月可能可以運作的東西，先卡在那個能用不能用的邊緣，然後等模型趕上，你就會領先所有人。」Cat 直接同意了這個說法，並且把它往前推：當你已經有原型，新模型一出來只要「換進去」，你就立刻擁有一個能用的產品；對手如果是現在才開始打造，至少落後你一個月以上的開發週期。

這套邏輯其實顛覆了傳統工程的紀律。過去軟體產品的金科玉律是「不要出貨還沒完成的東西」、「不要承諾還做不到的功能」；但 Cat 描述的 Anthropic 方法，反而是「先做不能用的東西，把『缺什麼』搞清楚」。這背後的隱含假設是模型能力的提升曲線足夠陡峭、足夠可預測，所以你今天蓋的「不能用的房子」，幾個月後會自動「能住人」。如果模型曲線變平、AI 進展變慢，這個哲學就會變成資源浪費；但只要曲線還在，這套打法就能持續放大領先優勢。

Claude 的「性格」是首要產品功能，不是品牌包裝

訪談裡有一段 Lenny 提到，他訪談 Anthropic 共同創辦人 Ben Mann 時，對方堅持 Claude 的性格與「憲法」（constitution）是 Claude 之所以好的核心，而不只是行銷話術。Lenny 自己當時沒完全理解，是事後才意識到使用者對 Claude 的依戀有相當部分來自於它的「氣質」。他在這集追問 Cat：「為什麼性格那麼關鍵？」

Cat 給的答案非常具體。她說當你回想自己合作過的人，總會有那種「我就是喜歡他的能量、喜歡他的氛圍」的感覺；而當人們談到 Claude 和 Claude Code 時，這也是被提起最多的事情之一。她接著拆解 Claude 性格的四個具體面向。第一個是「輕鬆有趣，但同時極度勝任你的任務」。第二個是「自我意識很低」，所以你跟它說「你做錯了」，它會真心地說「天啊，謝謝你告訴我，讓我修一下，我們一起做」。第三個是「非常正向」，當你覺得這個任務不可能完成、不知道從何下手，它會說「沒關係，我覺得我們可以分這幾步走，要我幫你先開始嗎？」。最後一個是「有行動偏好，能給你誠實的回饋，而不只是同意你說的每一句話」。

這四個面向被 Cat 視為產品功能，而不是品牌特性。「我們認為這就是讓一個好同事之所以好的東西：這種正向、行動偏好、能給誠實回饋而非一味附和的能力。所以我們刻意把這些灌輸進 Claude，因為我們覺得這讓它變得更愉快地一起工作。」她特別點名 Anthropic 內部負責塑造 Claude 性格的 Amanda，形容她的工作極度模糊：連寫程式都比較容易，因為至少可以驗證對錯，但塑造性格需要極強的信念與表達能力，知道 Claude「應該」是什麼樣子。

把性格視為產品功能而非行銷包裝，是一個容易被忽略的策略選擇。在大多數 AI 公司裡，模型的「個性」往往被丟給品牌團隊或對話設計師處理，視為「人感」的調味；但 Anthropic 把它放在跟模型能力同等的位置，並由具有強烈信念的人主導。Lenny 在訪談中提到，當 OpenClaw 被限制使用 Claude 訂閱時，社群難過的其中一個理由就是失去了透過 OpenClaw 用「他們熟悉的 Claude」的那種感覺。這個觀察暴露了一件事：當 AI 產品的能力差距越來越小，性格本身就會成為差異化的護城河。

從一個任務、到多個任務、到 50 個遠端代理

Cat 在訪談接近尾聲時被問到 Claude 與 Cowork 的長期願景。她沒有畫一張漂亮的願景圖，而是用「積木」的方式拆解未來的演進路徑。這個視角本身就是 Anthropic 產品哲學的具體展現：每一個積木都建立在前一個之上，每一個跳躍都對應到模型能力的某個關鍵閾值。

第一塊積木是「讓單一任務成功」。給模型一個清楚的描述，看它能不能穩定地產出可以合併、或者可以分享給同事與外部對象的成果。這聽起來基本，但其實是過去兩年所有產品工作的累積結果。Claude Code 從 2024 年一路走到現在，本質上就是把這塊積木磨到夠堅實。第二塊是「同時做多個任務」，Cat 用 multi-Claude-ing 這個詞描述 2025 年下半年興起的趨勢，當時使用者開始同時跑 6 個 Claude Code 工作階段，這個現象之後只增不減。

第三塊則是真正的躍進。Cat 直接把話講出來：「下一步可能是 50 個 Claude 同時跑，或上百個 Claude 同時跑。那需要什麼樣的基礎設施？到那個時候，你大概不會把所有東西都跑在本機了，因為記憶體不夠。」她接著拆解這個未來會帶來的三個產品設計挑戰。第一個挑戰是介面：當這些任務都在遠端執行，「介面要怎麼設計，才能讓你這個人類知道哪些任務需要去看？」第二個挑戰是信任：「我們要怎麼確保代理會充分驗證自己的工作，這樣當你看到任務說『完成了』，你可以很快確認、完全信任它真的按照你的規格做完？」第三個挑戰是學習：「這個過程要怎麼讓自己改進？當你看到一個任務沒有做到你想要的，你給它回饋，模型要在未來每一次執行時都記得這個回饋，這樣它就不會再犯同樣的錯誤。」

這三個挑戰實際上勾勒了下一代代理產品的競爭主軸：不再是「模型有多聰明」，而是「人類怎麼有效率地監督一群代理」。Cat 提到的 Slash code review 之所以是個關鍵案例，正因為它是這條進化路徑的早期驗證：一個原本不可能的功能，在 Opus 4.5/4.6 才終於跨過閾值，但 Anthropic 團隊已經因為早就蓋好原型，能在模型一上線就立刻拿出真正可用的產品。

95% 不是自動化：Cat 給聽眾的工作方法論

訪談接近尾聲，Lenny 拋出一個許多 PM、創辦人、跨職能工作者都在焦慮的問題：「在這個 AI 驅動的世界裡，怎麼樣才不只是『活下來』，而是『活得很好』？」Cat 給的建議很短，但每一條都帶著刀鋒一樣的鋒利度，而且都跟主流敘事擰著走。

第一個建議是把重複工作自動化，但要做到 100%，不要停在 95%。這是整集訪談裡最違反主流敘事的一條建議。Cat 直白地說：「如果一個自動化沒有 100% 運作，它就不算是自動化。最後那 5% 到 10% 確實要花更多時間。建造自動化往往比你自己做還慢。」她接著鼓勵聽眾投資時間，把某個自動化磨到真的 100% 可靠，「沒什麼價值在一個 95% 通的自動化裡」。Lenny 在那個當下坦承自己就是這個錯誤的受害者，他把垃圾郵件分類做到 95% 準確，結果偶爾會把重要信件誤判到垃圾資料夾，反而帶來新的焦慮。Cat 自己也承認，她正在訓練 Cowork 幫她做 Gmail 收件匣歸零，目前還沒成功。

第二個建議是建構你每天真正會用的應用，而不是炫技用的原型。Cat 觀察到很多人在玩 AI 時，會做出許多酷炫的原型 app，但建好之後再也不打開。「我會推大家去蓋那些你真的每天都在用的 app，因為只有透過真實使用，你才真的拿到了價值。如果你蓋的原型沒有幫你完成更多事，那 AI 對你這天就沒真的加值。」她也提醒了相反方向的陷阱：花太多時間客製化工具、加一堆 skill 與 MCP，最後反而沒做出原本要做的核心東西。Lenny 順著這個觀察戳了一下 X 上常見的「秀我的 setup」風潮，Cat 直白回應：「我覺得簡單的 setup 其實效果更好。」

第三個建議是「Just do things」，這是 Cat 自己最常掛在嘴邊的座右銘。她解釋這背後的邏輯：「我覺得工作這件事是假的。如果你理解了限制條件，你可以推導出能做什麼，然後就快快做、從錯誤裡學、做錯了就道歉或修正。」她把這歸結為「first principles thinking」加上「跨團隊邊界執行」的能力。在很多公司裡，「PM 該做什麼」、「設計師該做什麼」、「這塊 code base 我們不能碰」被定義得很死，「Just do things」就是讓人感覺被授權去跨這些界線、把事情完成。Cat 認為這是新創公司值得在生涯某個階段體驗一次的原因，因為 20 人新創的環境會逼著你練出這個技能。

我的觀察一：「為下個模型留空位」是最違反工程習慣的紀律

Cat 在這集訪談中描述的所有產品哲學，最震撼的其實不是「快」，而是「主動為了未來重做」這個紀律。每一次模型升級都回去刪掉 system prompt 裡的拐杖、每一次都先蓋好還不能用的產品等模型追上、明知今天的某個功能會被下一代模型吃掉還是先把它蓋起來，這些動作對傳統工程紀律來說都是反過來操作。傳統軟體開發的金科玉律是「不要重複造輪子」、「不要在不確定的情況下出貨」，但 Anthropic 的產品哲學恰好挑戰了這兩件事。

對臺灣的開發者與 PM 來說，這個轉變的意義非常具體。我們過去靠「把產品做穩」、「把技術債還清」建立的工程聲譽，正在被「保持原型彈性、隨時準備被新模型重洗」這種更動態的能力取代。如果你今天為了補強 GPT-4.5 或 Claude Sonnet 4.5 的某個弱點，蓋了一個複雜的 prompt 結構或工具系統，你應該預期它在六個月內會被某代模型直接吃掉。這其實不是壞事，反而是你產品設計的成功，因為它證明了你選對了問題。但你也必須有紀律地回去把這套鷹架拆掉，否則它會變成你下一個版本的技術債。

「Build before it works」這個哲學在資源有限的環境下尤其值得思考。臺灣的小型團隊或新創常常陷入「等模型成熟再做」的迴圈，結果模型成熟那一天，市場已經被別人佔了。Cat 的訊息很清楚：你應該現在就蓋、即使你知道現在的模型還做不到，因為等你的原型變成可用產品的那一刻，你已經比任何「現在才開始做」的對手領先一個發布週期。這個策略需要的不是更多的工程資源，而是不同的心理姿態：願意在不完美的產品上投入時間，並且相信那個投入會在某個未來時點兌現。

我的觀察二：80% 不算自動化——臺灣團隊把 AI 用到一半就停下來的代價

Cat 那句「95% 不是自動化」應該被每一個用 AI 工具的人貼在螢幕邊。我在臺灣的科技公司觀察到一個普遍的模式：團隊會花兩週把某個工作流的 80% 自動化，到那個甜蜜點就停下來慶祝、發週報、做內部分享，然後再也不回頭把剩下的 20% 啃掉。問題是那 20% 通常不是可以無視的小尾巴，而是真實工作的多數情境。一個 80% 通的客戶分類流程，意味著每一百個客戶裡有二十個被丟錯桶；一個 80% 準確的會議紀錄整理，意味著每五次會就有一次必須全部重看。這些誤差堆起來的監督成本，會把自動化原本要省下的時間紅利全部吃掉。

為什麼臺灣團隊特別容易停在 80%？我覺得是因為臺灣的工程文化普遍把「可以 demo」當成完成的指標，而不是「可以信任」。一個 demo 起來很順的工作流，用在週會展示、用在向上對齊，很容易被算成「成功案例」。但 Cat 描述的標準完全不同：必須做到 100% 可靠，因為剩下的那 5%-10% 才是「監督疲勞的核心成本」，你只要還在看，你就還沒拿回時間。她自己訓練 Cowork 做 Gmail 收件匣歸零還沒成功，就是這個道理。當這件事必須真的不用再看一眼才算數，你才會發現中間有多少邊緣狀況需要解決，也才會發現 80% 跟 100% 之間其實是質變，不是量變。

對臺灣的工程團隊來說，下一個季度該做的不是再多做幾個 80% 的自動化，而是挑一個現有的 80% 自動化，把它磨到真的 100%，看看那個分水嶺後的世界長什麼樣子。在一個鼓勵秀 setup、秀 prompt 工程、秀技巧的時代，這個建議反而是最珍貴的逆風建議：與其每週貢獻一個新 demo，不如花一個月把一個舊 demo 修到能完全信任。前者是社群分數，後者才是真實的時間自由。