Claude Code 之父的前沿三問:用 AI 審查 AI、回應 LeCun、與 AI 自我改進的倒數計時

Anthropic ARR 從約 40 億美元飆升至約 450 億美元,需求量年增 80 倍。Claude Code 負責人 Boris Cherny 在 Big Technology Podcast 詳解 AutoMode 如何用第二個 Claude 審查工具呼叫、為什麼邀請 Yann LeCun 來寫一小時程式碼,以及他如何看待 Jack Clark 對 AI 自我改進的預測。

Claude Code 之父的前沿三問:用 AI 審查 AI、回應 LeCun、與 AI 自我改進的倒數計時

本文整理自 Big Technology Podcast 2026 年 5 月播出的單集,主持人 Alex Kantrowitz 與 Anthropic Claude Code 負責人 Boris Cherny 的對談。

{{< spotify "episode/0y0QyIMFjvofd6oGRPlXij" >}}

{{< apple-podcast "tw/podcast/claude-code-head-boris-cherny-insane-growth-tokenmaxxing/id1522960417?i=1000768721139" >}}


去年此時,Anthropic 執行長 Dario Amodei 宣布公司年經常性營收(ARR)達到約 40 億美元。一年之後,這個數字變成了大約 450 億美元,需求量年增 80 倍。Claude Code 負責人 Boris Cherny 在節目上直言,即使團隊裡有不少經歷過矽谷高速成長期的老手,也沒有人見過這種等級的成長曲線。

這條曲線有一個清楚的模式:每次模型升級,用量就再爆一次。去年五月的 Opus 4 是第一次起飛,十一月的 Opus 4.5 再拉一個台階,今年二月的 4.6 又一次,然後是 4.7。Cherny 描述的場景很直觀:即使在 Claude Code 還沒對外開放之前,光是內部使用量就已經飆升到讓團隊確信這會是一個爆款產品。一年前 Anthropic 的營收主要來自 API,現在 Cherny 只願意說「這是一個混合」,暗示自家產品已經成長到可以跟 API 業務分庭抗禮的規模。

但爆發性的需求也帶來了基礎設施的壓力。Cherny 在節目中透露,Anthropic 一度降低了尖峰時段的使用上限,引發使用者不滿。這個決定後來被撤回,上限直接翻倍。他同時宣布正在提高每週的使用上限,並且把 Elon Musk xAI 旗下的 Colossus 算力設施接了進來。Cherny 的說法很直接:這個成長超出了他們最瘋狂的預測,沒有人預料到需求會大到這種程度。

用第二個 Claude 來審查第一個 Claude

成長帶來了一個實際的安全問題。Claude Code 的核心能力是使用工具:編輯檔案、執行指令、操作瀏覽器、連接外部服務。每次 Claude 要使用一個工具,都需要某種形式的許可。最初的做法是每次都跳出對話框問使用者「我可以執行這個操作嗎?」但使用者很快就疲勞了,開始無腦點「永遠允許」(always allow)。Cherny 發現了一個嚴重的漏洞:當 Claude 一次丟出一長串工具呼叫請求時,如果其中埋了一個有安全風險的指令,疲勞的使用者很可能直接按下同意而完全沒有察覺。這個「人類在迴圈中」的安全機制,正在因為人類的注意力極限而失效。

Anthropic 的解法叫做 AutoMode。概念是用一個 Claude 來審查另一個 Claude。當工作中的 Claude 想要使用某個工具時,系統會把這個請求送到第二個 Claude 實例,由它來判斷這個操作是否安全。第二個 Claude 有部分上下文資訊,加上多層安全檢查機制。Anthropic 花了好幾個月的時間,用數千個基準測試和安全評估來驗證這套系統。

結果出乎很多人的預期:無論是在實驗室環境還是真實使用場景中,AutoMode 都比人類手動審核更安全。Cherny 解釋這背後的邏輯其實很直觀。疲勞的人類會忽略細節,但第二個 Claude 不會疲勞,它會認真檢查每一個工具呼叫。一個人類可能在連續點了二十次「允許」之後,漏掉第二十一個有問題的指令。AutoMode 不會犯這種錯。

這個設計解鎖了更大的產品可能性。Cherny 提到 Claude Code 的路線圖有三個大方向:提升模型智慧、支援更長時間的自主任務、以及擴展平行代理人工作流。AutoMode 直接打通了第二和第三個方向。如果每次工具呼叫都要等人類按按鈕,Claude 就沒辦法長時間自主運作。有了 AutoMode,Cherny 自己白天同時跑五個 Claude Code 實例,晚上則把數量拉到幾百甚至幾千個,讓它們平行處理各種任務。這種規模的平行化,在一年前完全無法想像。

Cherny 回應 LeCun:來寫一小時程式碼

節目後半段,Kantrowitz 丟出了 AI 社群的一個經典辯題。Meta 首席 AI 科學家楊立昆(Yann LeCun)長期主張,要建造可靠的 AI 代理人系統,模型必須具備「世界模型」(world model),也就是對物理世界因果關係的內在理解能力。LLM 沒有這種能力。按照楊立昆的說法,LLM 只是預測下一個 token,不能預見自己行為的後果,就是「做了再說,後果是別人的事」。

Cherny 的回應方式很直接,也帶著一點挑釁。他公開邀請楊立昆來跟他一起用 Claude Code 寫一小時程式碼:「如果他想坐下來一起 code 一個小時,我很樂意展示給他看。」Kantrowitz 立刻接話說他們應該上節目來做這件事。Cherny 同意了,加了一句:「我很好奇他看完之後會怎麼想。也許他會改變想法,也許不會。」

被追問自己的立場時,Cherny 先是閃避,說自己「很明確站在產品這一邊」,不想捲入世界模型的學術辯論。但 Kantrowitz 不肯放過他。他指出 Cherny 用 CoWork 訂了八趟航班和五間旅館,還把信用卡交給了 AI。如果 Cherny 真的認為 LLM 不理解行為的後果,他不可能這麼做。

Cherny 最後換了一個角度切入。他引用了 Anthropic 可解釋性(interpretability)團隊發表的研究成果:純粹用「預測下一個 token」的方式訓練出來的模型,展現出了令人驚訝的規劃和推理能力。他舉了一個具體的例子:當 Claude 在寫一首詩的第一行時,研究人員可以在模型內部觀察到它已經在規劃第二行的押韻和節奏。你教它預測下一個字,但當下一個字夠難的時候,它必須學會提前規劃才做得到。Cherny 的態度很明確:你可以從理論上論證 LLM 不應該具備某種能力,但經驗證據顯示它確實做到了。至於這算不算「世界模型」,那是學者們要繼續爭論的問題。

自己寫自己的程式碼:60% 的機率與安全使命

節目最後十分鐘進入了最大膽的話題。Kantrowitz 引用 Anthropic 共同創辦人 Jack Clark 的公開發言:他估計 AI 模型在 2028 年之前開始有意義地自我改進,機率大約是 60%。Cherny 被問到是否同意,他的回答只有兩個字:「看起來對。」(Seems right.)

然後他攤開了現狀。Claude Code 的程式碼 100% 由 Claude Code 自己撰寫,這件事從去年十一月 Opus 4.5 推出以來就已經成立。不只如此,Claude 已經開始自己產生下一步應該做什麼功能的構想。但 Cherny 也交代了現實面:這些構想品質參差不齊,大部分的方向判斷還是由人類完成。目前的狀態是程式碼的執行已經完全自動化,但策略層面的決策仍然需要人類主導。迴圈還沒有完全閉合。

Kantrowitz 追問了一個更尖銳的問題:這是不是意味著「快速起飛」(fast takeoff)情境即將到來?Cherny 沒有迴避。他承認這是一個可能的結果,然後把話題帶到了 Anthropic 的核心使命。他的語氣變得格外嚴肅:公司裡每一個工程師、每一個研究員加入 Anthropic 的理由都是 AI 安全。如果 AI 自我改進真的發生了,最好有一群認真研究安全的人站在第一線。Anthropic 的整個存在邏輯就是建立在這個前提上的。

節目尾聲,Kantrowitz 拋出最後一問:所有這一切是不是只是開發者圈子裡的狂熱?Cherny 拿出了一個反證。最近 Opus 4.7 的 Hackathon,得獎者中有醫生、有電工、有木匠,都沒有程式設計背景。其中一位參賽者甚至在活動中打造了一個產品,後來賣掉了。更早之前,在 Claude Code 還沒有桌面版和 iOS app 的時候,非技術使用者為了使用它,自己學會了打開終端機。Cherny 認為這就是最強的產品市場適配信號:人們願意跨越技術門檻,是因為工具的實用價值大到值得花那個力氣。

我的觀察

這集節目裡 Cherny 回應了三個非常不同的挑戰,但背後有一條共同的邏輯線:不要用理論框架來預判 AI 能或不能做什麼,看實際結果。

AutoMode 是一個很好的例子。「人類在迴圈中」(human-in-the-loop)是 AI 安全領域最基本的設計原則之一,意思是讓人類保留最終決策權。但 Cherny 用數據顯示,疲勞的人類反而是安全漏洞。用第二個 AI 來審查第一個 AI,聽起來像是用問題來解決問題,但數千個安全評估測出來的結果說:它確實更安全。這對所有正在導入 AI 的企業都是一個值得思考的訊號。你以為「人類審核」是安全的最後一道防線,但如果你的員工每天按一百次「允許」,那道防線可能早就形同虛設。

對楊立昆的回應也是同樣的態度。世界模型的論述在理論上有其道理,但 Anthropic 的可解釋性研究顯示,模型在寫詩的第一行時就在規劃第二行的押韻。一個被訓練來預測下一個字的系統,竟然發展出了規劃能力。理論說它不應該做到,現實說它做到了。Cherny 選擇站在現實這一邊,而他邀請楊立昆來寫一小時程式碼的方式,本身就是產品人對理論家最典型的回應:別爭了,來試。

至於 Jack Clark 那 60% 的預測,Cherny 的回應裡有一個微妙但重要的區分。Claude Code 確實在寫自己的程式碼,Claude 也開始提出自己的功能構想,但策略方向的判斷還是人類在做。迴圈還沒閉合。這是一個仍在人類掌控範圍內的自動化,但距離真正的閉合迴圈,可能只差一兩步模型升級的距離。Cherny 的態度是:正因為這件事可能很快發生,確保它安全地發生,才是 Anthropic 存在的意義。