OpenAI 內部揭密:95% 工程師天天用 Codex,寫程式的時代正在結束
OpenAI API 平台工程負責人 Sherwin Wu 公開內部數據:95% 工程師每天使用 Codex,100% 的 PR 由 Codex 審查,重度使用者多開 70% 的 PR。他用 SICP「巫師書」比喻現代工程師正從寫程式轉型為施咒的巫師,管理一支 AI agent 車隊。

本文整理自 Lenny's Podcast 2026 年 2 月播出的單集。
{{< youtube B26CwKm5C1k >}}
{{< spotify "episode/3EPDh5GqC9PEdyQBEpmdrQ" >}}
{{< apple-podcast "tw/podcast/engineers-are-becoming-sorcerers-the-future-of/id1627920305?i=1000749436380" >}}

三個數字,一個不可逆的轉折
如果你是軟體工程師,以下三個數字可能會讓你坐直:95%、100%、70%。
OpenAI API 平台工程負責人 Sherwin Wu 最近上了 Lenny Rachitsky 的 Podcast,揭露了 OpenAI 內部的工作實況。95% 的工程師每天使用 Codex。100% 的 pull request 由 Codex 進行程式碼審查。而重度使用 Codex 的工程師,比輕度使用者多開了 70% 的 PR,而且這個差距還在持續擴大。
這些不是行銷話術。這是一家擁有數千名工程師的公司,在日常運作中實際觀察到的數據。Sherwin Wu 說,他很難精確地說每一行程式碼有多少是 AI 寫的,但絕大多數新程式碼確實是先經過 AI 生成的。更值得注意的是,那 70% 的生產力差距不是固定的,它每個月都在拉大。會用的人越來越會用,不用的人則持續落後。
這意味著什麼?軟體工程師的角色正在發生一次根本性的轉變,而且速度比大多數人預期的快得多。
巫師、掃帚、和失控的學徒
Sherwin Wu 用了一個很妙的比喻來描述這場轉變。他引用了 MIT 經典教科書 SICP(《Structure and Interpretation of Computer Programs》,俗稱「巫師書」)的開篇意象:程式設計師就像巫師,透過咒語(程式碼)讓電腦為他們做事。
在他看來,我們現在真的走到了這一步。工程師不再一行一行地寫程式碼,而是用自然語言描述想要的結果,然後看著 AI agent 去執行。這感覺更像是在施咒,而不是在寫程式。但他也提醒,這裡面有一個「魔法師的學徒」的陷阱:就像迪士尼《乍幻曲》裡那個召喚掃帚卻控制不住的學徒,如果你不夠資深、不夠有判斷力,那些被你召喚出來的 AI agent 也可能會失控。
在 OpenAI 內部,很多工程師同時開著 10 到 20 個平行的 Codex 執行緒。他們的工作模式已經不是坐在那裡寫程式,而是像技術主管一樣巡視、檢查、給回饋、引導方向。一個工程師變成了一支小團隊的管理者,只不過團隊成員全是 AI。
這對資深工程師來說其實是好消息。因為管理一支 AI agent 車隊需要的,正是資深工程師最擅長的東西:系統思維、架構判斷、優先級排序,以及知道什麼時候該踩煞車。但對那些剛入行、還在學習基礎功的初級工程師來說,路徑就沒那麼清晰了。你到底該先學會自己寫程式,還是直接學會指揮 AI 寫程式?這個問題目前沒有標準答案。
100% Codex codebase:一場極端實驗的啟示
OpenAI 內部有一個團隊正在進行一項相當極端的實驗:維護一個完全由 Codex 生成的程式碼庫,完全不允許人類手動寫程式碼。沒有逃生門,沒有「這段太複雜了我自己來寫」的後路。所有程式碼都必須透過 AI agent 產出。
這個實驗的目的不是證明「AI 可以取代人類」,而是逼團隊正面面對一個關鍵問題:當 AI agent 做不好的時候,到底是哪裡出了問題?
Sherwin Wu 給出的答案非常明確:幾乎每一次 agent 失敗,根因都不是模型能力不夠,而是 context 不足。工程師對任務的描述太模糊,或者程式碼庫裡缺乏足夠的文件、註解和結構化資訊,讓 AI 沒有足夠的背景知識來做出正確判斷。
這是一個很重要的翻轉。大多數人抱怨 AI coding agent「不夠聰明」,但真正的問題往往是你餵給它的資訊不夠好。換句話說,coding agent 的天花板不是模型的智商,而是你的程式碼庫有多「可讀」。
從這個實驗中浮現出的最佳實踐是:把所有的部落知識(tribal knowledge)寫下來。那些存在資深工程師腦袋裡、靠口耳相傳的潛規則,程式碼風格偏好,架構決策背後的理由,全部都要轉化成文字,寫進程式碼註解、markdown 檔案或 skills 檔裡。你不是在為人類同事寫文件,你是在為 AI 同事寫文件。而 AI 同事不會猜,它只讀你寫下來的東西。
Code review 從 15 分鐘變成 3 分鐘
100% 的 PR 由 Codex 審查,這個數字聽起來很驚人,但實際運作的方式比想像中務實。Codex 不是取代人類 reviewer,而是在人類審查之前先跑一輪。它會檢查程式碼風格、找出潛在問題、提出修改建議。對於小型的 PR,Codex 的審查結果通常就足夠了,人類 reviewer 可能只需要花幾秒鐘確認一下。
效果很明顯:以前一次 code review 平均要 10 到 15 分鐘,現在降到 2 到 3 分鐘。而且 Codex 還會自動修復 CI 失敗和 lint 問題,進一步壓縮了從寫完程式碼到合併上線的時間。
但 Sherwin Wu 也坦言,這種效率提升有一個前提:你的 CI/CD pipeline 要夠成熟。如果你的測試覆蓋率不夠、自動化流程不完整,AI 審查能提供的幫助就有限。工具只能放大你既有的好習慣,不能替你建立好習慣。
管理者的角色變了,但沒你想得那麼多
有趣的是,Sherwin Wu 認為 AI 對工程管理者角色的衝擊,遠沒有對 IC(Individual Contributor,個人貢獻者)的衝擊大。管理者的核心工作仍然是那些老派但重要的事:排除障礙、設定方向、協調資源、培養人才。AI 不會幫你做這些。
不過他提出了一個很有意思的管理哲學:把超過 50% 的時間花在你最頂尖的 10% 員工身上。理由很簡單,在 AI 時代,頂尖工程師的產出和普通工程師的差距被劇烈放大了。一個善用 AI 的 A 級工程師,產出可能是不用 AI 的 B 級工程師的五倍甚至十倍。你的工作是確保這些人不被任何事情卡住。
他引用了 Fred Brooks 在《人月神話》(The Mythical Man-Month)中提出的「外科醫生模型」:把每個工程師當成外科醫生,而管理者的工作就是確保手術室裡一切就緒,器械齊全、護理到位、沒有人闖進來打斷手術。AI 工具在這個類比中扮演的角色,是讓每個工程師身邊多了一整組支援團隊,但外科醫生本人的判斷力和專業能力仍然是不可取代的。
Sherwin Wu 還預測,隨著 AI 工具讓管理者能更高效地處理行政事務(比如用 ChatGPT 搭配組織知識來加速績效評估),未來管理者能直接管理的人數會超過現在業界標準的 6 到 8 人。這對組織架構設計有深遠的影響。
「這是模型最差的時候」
在整集訪談中,有一句話特別值得記住。Sherwin Wu 引用了 OpenAI 科學副總裁 Kevin Weil 的話:「This is the worst the models will ever be.」現在是模型表現最差的時候。
換句話說,你今天覺得 Codex 不夠聰明、AI agent 容易犯蠢、自動化程度還不夠高,這些都是暫時的。模型只會越來越好。那 70% 的生產力差距只會越來越大。那些現在還在觀望、覺得「等 AI 更成熟再說」的工程師,可能正在錯過一個建立不可逆優勢的窗口。
Sherwin Wu 的建議很實際:不用追每一個新工具、每一次模型更新。選一兩個工具,深入地用,搞懂 AI 能做什麼、不能做什麼。重點不是變成 AI 專家,而是把 AI 變成你日常工作流程的一部分,就像你不會去思考「我今天該不該用 Git」一樣自然。
對所有軟體工程師來說,這場轉變已經不是「會不會發生」的問題,而是「你準備好了沒有」的問題。