AI 自動化悖論:為什麼這家公司用了最多 AI,員工反而翻倍?

Every 執行長 Dan Shipper 在 Lenny's Podcast 上提出一系列出乎意料的預測:自動化是謊言、SaaS 不會死、CLI 時代結束了、PM 和設計師將成為最大贏家。他的公司過去一年從 15 人翻倍到 30 人,用自身經驗證明 AI 不是來取代人類,而是重新定義人類工作的方式。

AI 自動化悖論:為什麼這家公司用了最多 AI,員工反而翻倍?

本文整理自 Lenny's Podcast 2026 年 5 月播出的單集。

{{< youtube 4D3hDmGhFhA >}}

{{< spotify "episode/08uyLGouK9iFUpEoIkEyai" >}}

{{< apple-podcast "tw/podcast/the-ai-paradox-more-automation-more-humans-more-work/id1627920305?i=1000769334366" >}}


一年前的預言成真了,這次他又說了什麼?

一年前,Dan Shipper 在 Lenny's Podcast 上說了一句當時聽起來很大膽的話:「大家都在睡覺,沒注意到 Claude Code。」不只是工程師能用,任何人都能用它來整理檔案、管理硬碟、處理各種瑣事。當時沒什麼人在談這件事,多數人對「命令列工具拿來做非技術工作」這個概念嗤之以鼻。結果呢?Anthropic 後來推出了 Cowork,OpenAI 推出了 Codex 桌面應用程式,整個產業都往這個方向走。Lenny Rachitsky 甚至寫了一篇以這個概念為主題的電子報文章,成為他第二受歡迎的文章。

Dan Shipper 是 Every 的執行長兼創辦人。Every 是一家結合媒體與 AI 軟體的公司,總部在布魯克林,旗下有 Spiral(AI 寫作工具)、Lex(文字處理器)、Sparkle(檔案自動整理工具)等產品,訂閱者約 7.5 萬人。他的專欄「Chain of Thought」是 AI 應用領域最被關注的聲音之一,因為他不是在空談,而是真的把 AI 融入公司營運的每一個環節。過去一年,Every 從 15 人成長到將近 30 人,在一個「AI 會取代所有工作」的主流敘事中,他的公司反而僱了更多人。

這次他回到 Lenny's Podcast,帶來了一整組關於未來一年工作如何改變的預測。兩人約定 2027 年 5 月回來驗證,看他說得準不準。而這些預測中最核心的一個主張,用他自己的話來說就是:「自動化是一場謊言。」

工作型態的大分裂:超級代理加上 Codex 作業系統

Shipper 認為,未來一年內,工作方式會分裂成兩個明確的模式。

第一個模式是每家公司至少會有一個「超級代理」,員工可以在 Slack 裡直接跟它對話、交辦工作。他說 Every 內部一開始是讓每個人都有自己的個人代理,有點像《黃金羅盤》裡每個人肩上都有一隻守護精靈(daemon),是你靈魂的一部分。這個想法很浪漫,但現實是每個人都懶得維護自己的代理。那東西動不動就壞掉,你得會 SSH 進伺服器去修,大多數人根本不想花這個時間。所以他完全改變了看法,認為更實際的做法是一家公司有一個由專人維護的超級代理,先從全公司共用的通用型代理開始,再逐步往下發展出團隊型或功能型的專業代理。Shopify 的 River、Ramp 的內部代理,都是這個趨勢的早期範例。

第二個模式更根本:你日常的所有工作,都會發生在 Codex 或 Claude Code 這類環境裡。這些工具正在變成知識工作的作業系統。Shipper 自己就是活生生的例子。他現在用 Codex 處理幾乎所有事情,包括撰寫文件、處理電子郵件、做研究。他的做法是在 Codex 裡開一個執行緒,用內建瀏覽器打開他正在編輯的文件,然後 Codex 就像一個隨時在旁邊的工作夥伴,能看到他在做什麼,能幫他做研究,能幫他操作電腦上的任何東西。他靠這個方法連續十天維持收件匣歸零,對一個自認從來做不到 Inbox Zero 的人來說,這簡直是奇蹟。

他描述了一個具體的場景:律師寄來一封信要求提供過去四年的某些文件,他直接在 Codex 裡對著那封信說「去把過去四年的文件全部找出來,整理成報告,然後寄回去」,Codex 就去做了。那些他過去會拖延的事情,現在幾乎不再拖延。他說他有很長一段時間以為,AI 最好的使用方式是把 AI 放進瀏覽器裡。但現在他發現,反過來才對:把瀏覽器放進 AI 代理裡,讓代理能看到你正在做的一切,這個組合的威力遠超預期。

不是把 AI 塞進 SaaS,而是把 SaaS 放進 AI 裡

這個觀點帶出了一個更大的產業預測。傳統的想法是每家 SaaS 公司都要在自己的產品裡加上 AI 功能。但 Shipper 認為趨勢會反過來:SaaS 工具會在 Codex 或 Claude Code 的環境裡面被使用。你在 AI 代理的內建瀏覽器裡打開 PostHog、打開你的 Markdown 編輯器、打開任何你需要的工具,代理可以直接存取那些工具的介面,而你用的是你自己的 token,不是那家 SaaS 公司的。

這個轉變對 SaaS 公司的意義非常深遠。目前很多 SaaS 公司搶著在自家產品裡內建 AI 代理,這意味著它們得承擔 token 成本。但如果使用者是透過 Codex 來操作你的產品,token 的成本就轉移到使用者那邊了,SaaS 公司的利潤率反而會改善。Shipper 甚至直接說:「我會買 SaaS 股票。SaaS 末日論是蠢的。」他的理由是代理會增加 SaaS 的使用量,而不是取代它。Every 內部全員都在用 AI 代理,但他們的 SaaS 支出年年增加。代理不是不用軟體,代理是用更多軟體。

不過他也強調,SaaS 公司需要為這個新世界做準備。你的軟體必須同時為人類和代理設計。代理可以在三秒內發出上億個請求,你的基礎架構撐得住嗎?GitHub 現在就因為代理大量使用而面臨效能挑戰。你需要提供操作日誌、回滾機制、審核流程。你要建造的不是「AI 功能」,而是一個人類和代理可以在同一個工作面上即時協作的環境。

兩個代理比一個好用

Shipper 特別提到一個他覺得被低估的觀點:兩個代理同時使用比一個代理更強大。他舉了 Every 的實際經驗。當使用者透過 Codex 來操作 Every 的產品時,Codex 可以提供關於使用者的大量上下文資訊,包括這個人最近在做什麼專案、可能會怎麼使用這個產品、偏好是什麼。這些資訊如果要使用者自己打字輸入,會花非常久的時間。但 Codex 可以直接跟 Every 的產品代理對話,來回溝通那些人類很難一次表達清楚的需求。

更有趣的是除錯體驗。在 Proof(Shipper 建的開源 Markdown 編輯器)上,當使用者遇到問題時,不是寫客服信件,而是他的 Codex 代理直接發出一份 bug 報告。代理寫的 bug 報告比人類寫的好太多了:精確的重現步驟、可能的程式碼層級原因分析(因為 Proof 是開源的,代理可以看原始碼),然後 Every 的工程團隊收到這份報告後,可以直接派另一個代理去修復。那個從「使用者遇到問題」到「問題被修復」的回饋迴圈,正在變得前所未有地快。

CLI 時代結束了:我們快轉跑完了那個階段

很多人看到 Claude Code 爆紅,以為未來的工作介面就是命令列。Shipper 很直接地說:不是。「我們快速跑完了 CLI 時代。它很好,但結束了。」他的觀點是,Claude Code 成功的原因不是因為它是 CLI,而是因為它讓代理直接在你的電腦上運作,擁有完整的檔案系統和終端機存取權。這個核心優勢在 GUI 環境中一樣可以實現,而且 GUI 有更好的可視性、更容易協作。

他說 Every 內部,即使是技術人員,大多數也已經不把 CLI 當作主要工作介面了。他們用 Codex、Claude Code、Cursor,但不是在終端機裡工作,而是在有圖形介面的環境裡。人類發明 GUI 是有原因的,那些原因並沒有消失。當 AI 代理變得更成熟,人和代理在同一個 GUI 環境裡協作會是更自然的模式。CLI 不會消失,就像過去幾十年它一直存在一樣,但它不會是大多數知識工作者的主要工作面。

自動化是謊言:每一個 AI 代理都需要一個人類園丁

這是 Shipper 在這集節目中最有力的論點。他同時是一個「極度相信 AI」和「極度看好人類」的人,這兩件事在他看來完全不矛盾。因為他的親身經驗告訴他:AI 自動化越多,人類的工作不是越少,而是越多。

他在幾年前寫過一篇文章提出「配置經濟」(Allocation Economy)的概念:人類與 AI 共事的方式,就像是當經理人。而經理人的工作量其實非常大。多數經理人不是在海灘上曬太陽,而是不斷地查看員工的狀況、確認事情有沒有做對、想辦法讓事情做得更好。管理 AI 模型也是一樣的邏輯,你不能把代理設定好就放著不管。每次你自動化一個流程,你就需要一個人在上面盯著,確保自動化確實在正常運作。一旦你切斷了人類和代理之間的連結,那個代理很快就會變得沒用。

他舉了 Every 內部的例子。他們有一個叫 Claudie 的內部代理,負責管理整個顧問業務。工程師 Nitesh 的日常工作,有很大一部分就是在 Slack 裡跟 Claudie 對話,問它「你為什麼做了這個蠢事」然後修正它。這不是暫時的過渡期問題,這是代理運作的本質。即使模型變得更強,代理的數量也會增加,人類的管理角色不會消失,只會轉換形態。

基準測試的盲點:Senior Engineer Benchmark 的啟示

為了說明 AI 的實際能力與基準測試的落差,Shipper 打造了他自己的基準測試:「Senior Engineer Benchmark」(資深工程師基準)。故事是這樣的。他用 vibe coding 的方式做了 Proof 這個產品,上線當天就崩潰了。每十分鐘伺服器就當掉一次,他自己修不好,Codex 也修不好。Codex 會說「我修好了」,結果引發另外四個錯誤,陷入一個無限循環。他甚至因為瘋狂 vibe coding 得了手肘滑囊炎。

最後他找了兩位資深工程師獨立修復這個問題,拿到了兩份獨立的程式碼重寫版本。從此以後,每當有新模型出來,他就用一個簡單的 prompt 去測試:「這是 vibe coding 出來的爛程式碼,如果你要從頭重寫,你會怎麼做?」

在 GPT 5.5 之前,所有模型的得分大約是 30 分(滿分 100),而人類資深工程師得 80 幾到 90 幾分。GPT 5.5 跳到了 62 分,而且那 62 分是用 Opus 4.7 的計畫搭配 GPT 5.5 的執行。GPT 5.5 是唯一一個有足夠的主動性和自信,願意把舊程式碼直接砍掉重寫的模型。其他模型都只會在邊緣打補丁,明明被告知不要這樣做,它們還是選擇保守的修補策略。

但 Shipper 說了一個更深層的觀察。這個基準測試看起來很簡單,好像 prompt 沒什麼技術含量,就是一句「這是爛 code,修它」。但其實他花了很長時間才找到一個既不洩漏答案、又能讓模型展現真實能力的 prompt。他最初的 prompt 是他在生產環境崩潰時寫的:「我們昨天有四五個回報的問題,去逐一看過然後擬定修復計畫。」每一個模型都會乖乖照做,逐一修復那些問題。但真正的人類資深工程師會做的事完全不同。他們會先看整個程式碼架構,然後說:「這整個寫得很爛,我們需要大幅重寫,我知道你不想聽到這個,但這是必要的。」模型不會自己做出這種判斷。如果你問它「我們應該重寫嗎?」它可能會同意,但它不會主動提出這個建議。而且即使基準分數最終飽和,他隨時可以調整基準讓當前最好的模型歸零,因為人類能意識到的問題框架永遠在基準測試能捕捉的範圍之前。

非技術人員開始提交 Pull Request

工作形態的另一個明顯變化是,越來越多非技術人員開始做以前只有技術人員才能做的事。在 Every 內部,諮詢顧問、營運人員、編輯都在提交 pull request。OpenAI 的 Pete(指 Pete Koomen)每天在 OpenClaw 上收到上千個 pull request,然後啟動五萬個 Codex 實例去處理,最後合併其中一千個。

這帶來了一個新的挑戰:當「能不能做出來」不再是瓶頸時,「做出來的東西跟整體系統是否一致」就變成核心問題。你需要有人在那裡判斷哪些 pull request 應該合併、哪些應該拒絕、整個產品的一致性怎麼維護。Shipper 提到 Anthropic 在這方面做得很好,他們會積極刪除 Claude Code 裡多餘的功能,確保產品不會臃腫。這種「決定什麼不做」的能力,會變得跟「做出來」一樣重要。

前線部署工程師:一個正在成形的新角色

因為每一個代理都需要人類照顧,一個明確的新職種正在浮現:前線部署工程師(Forward Deployed Engineer)。這不是傳統意義上寫程式碼的軟體工程師,而是負責確保代理正常運作、為整個組織建立系統的人。在大型模型公司內部,已經有專門的團隊在管理內部代理。Shipper 不認為這些團隊會消失。模型會變得更強、代理會變得更多,但人類的管理角色會持續存在。

這是一個非常特殊的工程挑戰:你不是在做傳統的軟體開發,而是在建造一個系統,讓組織裡知識程度較低的人也能安全地使用代理來完成以前需要技術能力才能做的工作。如果做得好,專業人員(比如資料科學家)就不用再處理那些基礎的、重複的查詢,可以專注於更深、更有價值的問題。反過來,如果沒有這個系統,專業人員的日子就會很難過,因為每個人都在用 AI 做分析然後跑來問「我做的對不對」。

AI 生成的內部文件不是汙染,是進步

Shipper 提出了一個可能會讓很多人不舒服的觀點:我們會越來越常閱讀 AI 生成的文字,而且我們會喜歡。他說這在程式碼領域已經是現實了。沒有人會希望工程師手寫一份計畫文件,那顯然很蠢。同樣的邏輯也適用於策略文件和內部文件。

Every 在 2025 年底做季度規劃時,全部用 Notion 的代理來做。他們設定了一個頂層的公司策略,然後讓每個員工各自跟一個代理對話,代理會問他們去年做了什麼、成效如何、今年的目標是什麼、指標有哪些、怎麼跟公司整體方向對齊。然後 Shipper 拿到的是每個團隊的 AI 生成策略報告。他可以快速看出哪些團隊之間需要溝通但還不知道、哪些報告品質高哪些低、整體的策略是否一致。這比每個人花好幾個小時手寫策略文件然後他再花好幾個小時讀,效率高了不知道多少倍。

但他也畫了一條很清楚的線:AI 生成的文字有「slop」(垃圾)和不是 slop 的區別。判斷標準很簡單,如果寫的人花的時間比你讀的時間還少,而且他沒辦法為文件裡的每一行背書,那就是 slop。人類必須是核心想法的策展人,必須能為最終產出負責。AI 生成本身不是問題,不負責任地使用才是問題。

他自己大部分的電子郵件現在都由 GPT 5.5 和 Codex 來寫。他說他其實希望能標註「這封信是 GPT 5.5 寫的」。有一次 Codex 直接代他發了一封信給投資人,沒有先讓他看過,他嚇了一跳,趕緊去看寄件備份,結果發現寫得跟他自己會寫的一模一樣。他承認,大部分的商業往來郵件本來就是制式化的,真正重要的是決定「要說什麼」,至於「怎麼說」多數時候不那麼關鍵。而這段話是從一位以寫作為業的人口中說出來的。

PM 和設計師的黃金年代

談到誰會在 AI 時代贏,Shipper 毫不猶豫地說:產品經理和全端設計師。

他舉了 Every 內部的一個真實案例。Marcus 負責經營 Spiral(Every 的 AI 寫作工具),他的背景是 PM,之前在 Axios 管過一個寫作產品,帶了一個大團隊做到年收入數千萬美元。他離開 Axios 後花了一年時間學 Cursor,現在改用 Claude Code。Shipper 形容他是「輕度技術型」的人,知道什麼是資料庫遷移,看得懂程式碼,但絕對不是傳統意義上的工程師。然而現在的 coding model 已經好到,他可以把有限的技術知識和他非常突出的產品直覺結合起來,產出的速度比團隊裡幾乎任何人都快。他對每一個使用者對話、每一個回饋訊號的敏感度,加上他現在可以自己動手把想法做出來的能力,形成了一種 Shipper 所說的「非常危險」的組合。更重要的是,他感覺被解放了,不用再組織一整個工程團隊來實現一個功能,他可以自己做。

設計師也是同樣的邏輯。Every 內部有很多設計師現在直接提交 pull request。他們過去最痛苦的事情就是精心設計了一個漂亮的互動體驗,結果工程師不想做或做出來不對。現在他們可以自己做出來,而且做出來的東西跟 vibe coding 產出的千篇一律的介面完全不同。設計師的創造力加上 AI 的建造能力,讓他們不只能在公司內部發揮更大影響力,更有機會自己創業。

模型將「昨天的人類能力」商品化

Shipper 提出了一個非常精準的框架來理解 AI 對工作的影響。他說,新模型做的事情是把「昨天的人類能力」變便宜。模型吸收了所有已經存在的知識和技能,讓任何人都能以接近零成本部署這些能力。突然間,每個人都能做一個漂亮的著陸頁面。突然間,每個人都能寫一篇文章。但因為大家都在用基本上相同的模型,如果你用最預設、最基本的方式來用它,產出的東西都長一樣。它被商品化了,不再有價值。

而人類做的事情是:拿著這些被凍結的、昨天的人類能力,然後問自己「我怎麼用這些東西做出新的、有趣的東西?」這才是人類的獨特價值所在。他認為,由於模型的運作方式,由於模型公司讓模型保持合規和對齊的商業動機,模型在結構上永遠會落後於那些用模型來創造新事物的人。那些新事物最終會被模型吸收,但這又會為人類打開新的空間去往更前面推進。

工程師就是一個具體的例子。突然間每個人都是工程師了。但這不意味著你可以解僱工程師。反而因為更多人在產出程式碼,你更需要真正的工程師來判斷「這堆東西怎麼才能用一種有意義的方式整合進我們的系統裡」。這種判斷力不在基準測試的分數裡,但它是讓一個產品不只是能跑、而是能跑得好的關鍵。

你的公司只能走到 CEO 走到的地方

Shipper 對企業領導者丟出了一個不客氣的觀察。他問:哪個職位的日常工作因為 AI 改變最少?答案可能是 CEO 和中階經理人。到目前為止,他們的日子看起來可以跟以前差不多,「AI 的事讓下面的人去做就好」。但 Shipper 從顧問工作中看到的現實是:一家公司的 AI 成熟度,上限就是 CEO 的 AI 直覺。這件事沒辦法委派。你必須親自動手用,因為只有親自用過,你才會對模型的能力和限制建立直覺。沒有這個直覺,你做的所有 AI 策略決策都是在猜。他認為這個逃避期不會持續太久,某個時間點 CEO 們會突然發現自己已經落後很多了。

駕馭模型:不要出於恐懼,而是出於好奇

Shipper 給所有知識工作者的核心建議就三個字:「駕馭模型」(Ride the Models)。具體來說,就是每當新模型出來的時候,去試用它。看看它在你的工作領域能做什麼新的事情,去翻翻那些你知道上次還做不到的石頭,看看這次做得到了沒有。他用自己的 Senior Engineer Benchmark 舉例:每次新模型出來,他都會再測一次,上次 30 分的東西這次變成 62 分了。

他特別提到一個觀點:很多人以為 AI 的前沿在舊金山。他不同意。他認為 AI 的前沿在任何 AI 與真實的人在做真實的事情交會的地方。舊金山的人在做 AI,但他們不一定知道怎麼用 AI。他們需要看其他人怎麼用。所以每當新模型出來,你都有機會成為世界上第一批發現它在某個領域能做什麼的人。這就是為什麼 Every 雖然在布魯克林,卻覺得自己比很多舊金山的公司走得更前面,因為他們真的每天都在用。

他說最重要的心態不是恐懼驅動的。不是「我怕丟工作所以我要學 AI」。而是去找到那個讓你覺得「天哪,AI 居然能做這個」的喜悅時刻。那個時刻會讓你自然而然地想要繼續探索。他引述 Nikhil Singhal 在 Lenny's Podcast 上說的話:你得找到你跟 AI 的「喜悅時刻」。找到它之後,一切都會水到渠成。

我的觀察:悖論的力量在於它是真實的

聽完這一個半小時的對話,最讓我印象深刻的不是任何單一預測,而是 Shipper 把所有這些觀察串成了一個完整的故事。那個故事的核心很簡單:AI 確實在改變一切,但改變的方式不是大多數人想的那樣。不是「AI 取代人類」這麼直線的敘事,而是一個充滿悖論的過程。自動化越多,人越忙。代理越強,越需要人來照顧。每個人都能寫程式碼了,但工程師反而更重要。

這個悖論之所以有說服力,是因為它不是來自一個坐在象牙塔裡推演的未來學家,而是來自一個每天跟 30 個員工一起在 Codex、Claude Code、OpenClaw 裡摸爬滾打的創業者。他的公司就是他的實驗室,而實驗結果是:用了最多 AI 的公司,僱了更多人。

對臺灣的知識工作者來說,這裡有一個值得思考的訊息。與其焦慮 AI 會不會搶走你的工作,不如問自己一個更實際的問題:你有沒有在駕馭模型?你有沒有在每次新模型出來的時候去翻翻石頭?因為根據 Shipper 的觀察,真正會出局的不是被 AI 取代的人,而是拒絕跟 AI 一起工作的人。而那些願意跳進去的人,會發現自己能做的事情比以前多了十倍。

AI 的前沿不在舊金山,它在你打開 Codex、在你的 Slack 裡叫出代理、在你第一次用 Claude Code 幫你整理收件匣的那個瞬間。