AI 開發實戰

OpenAI 內部揭密：95% 工程師天天用 Codex，寫程式的時代正在結束

OpenAI API 平台工程負責人 Sherwin Wu 公開內部數據：95% 工程師每天使用 Codex，100% 的 PR 由 Codex 審查，重度使用者多開 70% 的 PR。他用 SICP「巫師書」比喻現代工程師正從寫程式轉型為施咒的巫師，管理一支 AI agent 車隊。

2026 年 2 月 18 日 · 來源： Lenny's Podcast

本文整理自 Lenny's Podcast 2026 年 2 月播出的單集。

{{< apple-podcast "tw/podcast/engineers-are-becoming-sorcerers-the-future-of/id1627920305?i=1000749436380" >}}

封面圖

三個數字，一個不可逆的轉折

如果你是軟體工程師，以下三個數字可能會讓你坐直：95%、100%、70%。

OpenAI API 平台工程負責人 Sherwin Wu 最近上了 Lenny Rachitsky 的 Podcast，揭露了 OpenAI 內部的工作實況。95% 的工程師每天使用 Codex。100% 的 pull request 由 Codex 進行程式碼審查。而重度使用 Codex 的工程師，比輕度使用者多開了 70% 的 PR，而且這個差距還在持續擴大。

這些不是行銷話術。這是一家擁有數千名工程師的公司，在日常運作中實際觀察到的數據。Sherwin Wu 說，他很難精確地說每一行程式碼有多少是 AI 寫的，但絕大多數新程式碼確實是先經過 AI 生成的。更值得注意的是，那 70% 的生產力差距不是固定的，它每個月都在拉大。會用的人越來越會用，不用的人則持續落後。

這意味著什麼？軟體工程師的角色正在發生一次根本性的轉變，而且速度比大多數人預期的快得多。

巫師、掃帚、和失控的學徒

Sherwin Wu 用了一個很妙的比喻來描述這場轉變。他引用了 MIT 經典教科書 SICP（《Structure and Interpretation of Computer Programs》，俗稱「巫師書」）的開篇意象：程式設計師就像巫師，透過咒語（程式碼）讓電腦為他們做事。

在他看來，我們現在真的走到了這一步。工程師不再一行一行地寫程式碼，而是用自然語言描述想要的結果，然後看著 AI agent 去執行。這感覺更像是在施咒，而不是在寫程式。但他也提醒，這裡面有一個「魔法師的學徒」的陷阱：就像迪士尼《乍幻曲》裡那個召喚掃帚卻控制不住的學徒，如果你不夠資深、不夠有判斷力，那些被你召喚出來的 AI agent 也可能會失控。

在 OpenAI 內部，很多工程師同時開著 10 到 20 個平行的 Codex 執行緒。他們的工作模式已經不是坐在那裡寫程式，而是像技術主管一樣巡視、檢查、給回饋、引導方向。一個工程師變成了一支小團隊的管理者，只不過團隊成員全是 AI。

這對資深工程師來說其實是好消息。因為管理一支 AI agent 車隊需要的，正是資深工程師最擅長的東西：系統思維、架構判斷、優先級排序，以及知道什麼時候該踩煞車。但對那些剛入行、還在學習基礎功的初級工程師來說，路徑就沒那麼清晰了。你到底該先學會自己寫程式，還是直接學會指揮 AI 寫程式？這個問題目前沒有標準答案。

100% Codex codebase：一場極端實驗的啟示

OpenAI 內部有一個團隊正在進行一項相當極端的實驗：維護一個完全由 Codex 生成的程式碼庫，完全不允許人類手動寫程式碼。沒有逃生門，沒有「這段太複雜了我自己來寫」的後路。所有程式碼都必須透過 AI agent 產出。

這個實驗的目的不是證明「AI 可以取代人類」，而是逼團隊正面面對一個關鍵問題：當 AI agent 做不好的時候，到底是哪裡出了問題？

Sherwin Wu 給出的答案非常明確：幾乎每一次 agent 失敗，根因都不是模型能力不夠，而是 context 不足。工程師對任務的描述太模糊，或者程式碼庫裡缺乏足夠的文件、註解和結構化資訊，讓 AI 沒有足夠的背景知識來做出正確判斷。

這是一個很重要的翻轉。大多數人抱怨 AI coding agent「不夠聰明」，但真正的問題往往是你餵給它的資訊不夠好。換句話說，coding agent 的天花板不是模型的智商，而是你的程式碼庫有多「可讀」。

從這個實驗中浮現出的最佳實踐是：把所有的部落知識（tribal knowledge）寫下來。那些存在資深工程師腦袋裡、靠口耳相傳的潛規則，程式碼風格偏好，架構決策背後的理由，全部都要轉化成文字，寫進程式碼註解、markdown 檔案或 skills 檔裡。你不是在為人類同事寫文件，你是在為 AI 同事寫文件。而 AI 同事不會猜，它只讀你寫下來的東西。

Code review 從 15 分鐘變成 3 分鐘

100% 的 PR 由 Codex 審查，這個數字聽起來很驚人，但實際運作的方式比想像中務實。Codex 不是取代人類 reviewer，而是在人類審查之前先跑一輪。它會檢查程式碼風格、找出潛在問題、提出修改建議。對於小型的 PR，Codex 的審查結果通常就足夠了，人類 reviewer 可能只需要花幾秒鐘確認一下。

效果很明顯：以前一次 code review 平均要 10 到 15 分鐘，現在降到 2 到 3 分鐘。而且 Codex 還會自動修復 CI 失敗和 lint 問題，進一步壓縮了從寫完程式碼到合併上線的時間。

但 Sherwin Wu 也坦言，這種效率提升有一個前提：你的 CI/CD pipeline 要夠成熟。如果你的測試覆蓋率不夠、自動化流程不完整，AI 審查能提供的幫助就有限。工具只能放大你既有的好習慣，不能替你建立好習慣。

管理者的角色變了，但沒你想得那麼多

有趣的是，Sherwin Wu 認為 AI 對工程管理者角色的衝擊，遠沒有對 IC（Individual Contributor，個人貢獻者）的衝擊大。管理者的核心工作仍然是那些老派但重要的事：排除障礙、設定方向、協調資源、培養人才。AI 不會幫你做這些。

不過他提出了一個很有意思的管理哲學：把超過 50% 的時間花在你最頂尖的 10% 員工身上。理由很簡單，在 AI 時代，頂尖工程師的產出和普通工程師的差距被劇烈放大了。一個善用 AI 的 A 級工程師，產出可能是不用 AI 的 B 級工程師的五倍甚至十倍。你的工作是確保這些人不被任何事情卡住。

他引用了 Fred Brooks 在《人月神話》（The Mythical Man-Month）中提出的「外科醫生模型」：把每個工程師當成外科醫生，而管理者的工作就是確保手術室裡一切就緒，器械齊全、護理到位、沒有人闖進來打斷手術。AI 工具在這個類比中扮演的角色，是讓每個工程師身邊多了一整組支援團隊，但外科醫生本人的判斷力和專業能力仍然是不可取代的。

Sherwin Wu 還預測，隨著 AI 工具讓管理者能更高效地處理行政事務（比如用 ChatGPT 搭配組織知識來加速績效評估），未來管理者能直接管理的人數會超過現在業界標準的 6 到 8 人。這對組織架構設計有深遠的影響。

「這是模型最差的時候」

在整集訪談中，有一句話特別值得記住。Sherwin Wu 引用了 OpenAI 科學副總裁 Kevin Weil 的話：「This is the worst the models will ever be.」現在是模型表現最差的時候。

換句話說，你今天覺得 Codex 不夠聰明、AI agent 容易犯蠢、自動化程度還不夠高，這些都是暫時的。模型只會越來越好。那 70% 的生產力差距只會越來越大。那些現在還在觀望、覺得「等 AI 更成熟再說」的工程師，可能正在錯過一個建立不可逆優勢的窗口。

Sherwin Wu 的建議很實際：不用追每一個新工具、每一次模型更新。選一兩個工具，深入地用，搞懂 AI 能做什麼、不能做什麼。重點不是變成 AI 專家，而是把 AI 變成你日常工作流程的一部分，就像你不會去思考「我今天該不該用 Git」一樣自然。

對所有軟體工程師來說，這場轉變已經不是「會不會發生」的問題，而是「你準備好了沒有」的問題。