「模型會把你的 scaffolding 當早餐吃掉」:OpenAI 工程負責人的 AI 產品策略心法
OpenAI API 平台工程負責人 Sherwin Wu 分享三個 AI 時代的產品策略洞見:為模型的未來而非現在而建、企業 AI 部署失敗多因純 top-down 推動、以及商業流程自動化是被嚴重低估的巨大機會。

本文整理自 Lenny's Podcast 2026 年 2 月播出的單集。
{{< youtube B26CwKm5C1k >}}
{{< spotify "episode/3EPDh5GqC9PEdyQBEpmdrQ" >}}
{{< apple-podcast "tw/podcast/engineers-are-becoming-sorcerers-the-future-of/id1627920305?i=1000749436380" >}}

Scaffolding 的保存期限,比你想的短很多
OpenAI API 平台工程負責人 Sherwin Wu 在 Lenny's Podcast 上說了一句讓人很不舒服的話:「The models will eat your scaffolding for breakfast.」模型會把你精心打造的 scaffolding 當早餐吃掉。
這裡的 scaffolding 指的是什麼?就是你為了彌補模型不足而搭建的所有外圍工程。向量資料庫、RAG pipeline、chain-of-thought prompting 框架、agent 編排邏輯、各種 guardrail 和 fallback 機制。這些東西在模型能力不足的時候非常必要,甚至是產品能不能用的關鍵。但問題是,模型進步的速度遠超你的預期。你花了三個月搭的 scaffolding,可能在下一次模型更新後就變得多餘了。
Sherwin Wu 的身份讓這句話特別有份量。他負責的團隊就是做 OpenAI 的 API 和開發者平台的,每天都在跟數以千計的 AI 新創和企業互動。他看過太多團隊掉進同一個陷阱:把所有精力投入在解決「現在」的模型限制上,結果下一代模型一出來,那些精心設計的解決方案就成了技術債。
不要只聽客戶的
這引出了他的第一個策略洞見:在 AI 領域,太認真聽客戶的聲音可能會害死你。
這句話乍聽之下違反直覺。產品管理的金科玉律不就是傾聽客戶、解決痛點嗎?但 Sherwin Wu 認為,在 AI 產品領域,這條規則需要打一個很大的折扣。因為客戶告訴你的需求,通常是基於他們對當前模型能力的理解。他們要你加一個功能來繞過某個模型的弱點,你很認真地做了,結果下一代模型根本就沒那個弱點了。你辛苦做的功能變成了一個沒人需要的按鈕。
他的建議是:為模型要去的方向而建,不是為模型現在的位置而建。這不是說完全忽略客戶回饋,而是要在客戶告訴你的需求和你對模型發展方向的判斷之間,找到一個平衡。那些提前為下一代模型能力設計架構的產品,往往在新模型發布時會出現一個戲劇性的效果:突然之間,整個產品的體驗跳了一個層級,因為架構已經準備好了,只等模型能力到位。
反過來,那些太貼合當前模型能力的產品,每次模型更新都要大改,永遠在追趕,永遠在重構。
企業 AI 部署:為什麼 top-down 會死
Sherwin Wu 看過大量企業客戶的 AI 部署案例,他觀察到一個非常清晰的模式:純粹 top-down 的 AI 推動方式,幾乎必定失敗。
這類失敗通常長這樣:CEO 在某場論壇上被 AI 的展示打動了,回來宣布「我們要全面導入 AI」。IT 部門買了一堆工具和授權,發了一封全公司的 email 說「現在大家都可以用 AI 了」。然後三個月後,使用率低迷,效率沒有明顯提升,ROI 算出來是負的。CEO 開始質疑 AI 到底有沒有用。
問題出在哪裡?不是工具不好,也不是模型不行。問題在於沒有人告訴員工「AI 具體能幫我做什麼」。每個部門、每個角色的工作流程都不一樣。行銷部門用 AI 的方式和工程部門完全不同,客服團隊的需求和財務團隊也天差地別。一個由上而下的通用指令,根本無法轉化成具體的日常行動。
Sherwin Wu 看到的成功案例都有一個共同特徵:top-down 的支持加上 bottom-up 的熱情,缺一不可。具體來說,就是在組織內部找到或培養一個「AI tiger team」。這個團隊不需要是軟體工程師,他們甚至可能來自業務、行銷或客服部門。關鍵是他們要對 AI 有真正的好奇心和熱情,願意花時間探索工具的邊界,發現哪些工作流程可以被 AI 改善。
這些人會成為組織內部的「傳教士」。他們試出了好用的做法,會自發地分享給同事。他們會舉辦小型工作坊,做 lunch-and-learn,甚至建立內部的 best practice 文件。這種由下而上的擴散,比任何高層指令都有效,因為員工更信任同事的推薦,而不是 CTO 的 email。
高層的角色是什麼?是給這些 tiger team 足夠的時間、資源和授權。讓他們有空間去實驗,而不是被日常的 KPI 壓得喘不過氣來。BCG 的調查也支持這個觀點:AI 轉型最大的障礙有 70% 是管理面的問題,跟技術無關。
接下來 12 到 24 個月:兩個值得關注的趨勢
被問到對 OpenAI 平台接下來一兩年最興奮的事情時,Sherwin Wu 點名了兩個方向。
第一個是多小時自主 agent。今天的 AI agent 實際上能持續連貫工作的時間大約是 10 分鐘。超過這個時間,模型就容易迷失方向、忘記之前的 context、做出不連貫的決策。根據 METR(Model Evaluation and Threat Research)的追蹤數據,AI agent 能連貫完成的任務時間長度一直在指數級成長,大約每幾個月翻一倍。Sherwin Wu 預期在 12 到 18 個月內,我們會看到能連貫運作數小時的 agent。
這聽起來好像只是從 10 分鐘變成幾小時,量的差別而已。但實際上,這是一個質的飛躍。10 分鐘能做的事情很有限,基本上就是完成一個小型的、定義清晰的任務。但如果 agent 能穩定運作幾個小時,它就可以處理複雜的、多步驟的、需要規劃和反覆調整的工作。軟體工程、資料分析、內容生產、客戶服務,全部會被重新定義。
第二個是原生音訊 AI。大多數人想到 AI,腦中浮現的是文字和程式碼。但 Sherwin Wu 指出,全世界大部分的商業活動其實是透過語音進行的:電話會議、客服通話、銷售拜訪、內部溝通。原生的語音對語音模型(不是先轉文字再處理,而是直接理解和生成語音)正在快速進步。他認為這是一個被嚴重低估的企業應用機會。想像一下,一個 AI 客服代理不是透過文字聊天機器人,而是直接用自然的語音和客戶對話,能聽懂語氣、能即時回應、能處理複雜的業務邏輯。這不是科幻,這在技術上已經很接近了。
商業流程自動化:矽谷最大的盲點
如果你經常看 X(前 Twitter)上的 AI 討論,你會發現幾乎所有話題都圍繞著軟體工程和知識工作。AI 寫程式、AI 做研究、AI 產生內容。但 Sherwin Wu 認為,這些只是冰山一角。
全世界大部分的經濟活動不是寫程式或做研究,而是執行結構化、重複性、有明確標準作業流程的商業流程。客服中心的通話處理、保險理賠的文件審核、供應鏈的訂單管理、會計事務所的報稅作業、醫療機構的預約排程。這些流程有幾個特徵讓它們特別適合 AI 自動化:它們有清楚的 SOP、高度重複、量非常大,而且錯誤模式相對可預測。
這跟軟體工程不一樣。軟體工程是開放性、創造性的工作,需要在模糊的問題空間中做判斷。但商業流程自動化(Business Process Automation)是確定性的,是有明確輸入和預期輸出的。以目前的模型能力,AI 處理這類任務的可靠度已經非常高了。
矽谷之所以忽略這個機會,Sherwin Wu 認為是因為矽谷的人太習慣用自己的經驗去推斷世界。在矽谷,每個人都是知識工作者,所以自然覺得 AI 最大的機會就是改善知識工作。但走出矽谷看看,全球大部分的就業人口做的不是知識工作,而是流程性的工作。AI 對這些流程的改造,可能比對軟體工程的改造更加劇烈,影響的人也更多。
OpenAI 的平台思維:四層堆疊
要理解 Sherwin Wu 的策略觀點,需要了解 OpenAI 目前的開發者平台架構。它是一個四層堆疊:
最底層是 Responses API,這是一個為長時間運作的 agent 設計的低階 API。你可以把一個任務交給模型,讓它自主工作一段時間後回傳結果。這是構建一切 agentic 應用的基礎設施。
往上一層是 Agents SDK,一個開源的多 agent 編排框架。它讓你可以定義多個 agent,設定它們之間的委派關係、guardrail 和工作流程。如果你想建一個系統,讓 agent A 負責資料蒐集、agent B 負責分析、agent C 負責撰寫報告,Agents SDK 就是做這件事的工具。
再上一層是 Agent Kit,提供預建的 UI 元件,讓開發者可以快速搭建 agent 介面,不用從零開始做前端。
最上層是 Evals API,用來定量測試 agent 和工作流程的品質。這一層常被忽略,但 Sherwin Wu 認為它非常關鍵。沒有好的評估機制,你根本不知道你的 agent 到底有沒有在進步。
這個四層架構的設計哲學是:讓開發者可以在任何抽象層級切入。想要最大控制權的人用 Responses API,想要快速上手的人用 Agent Kit,大多數人在中間層找到適合自己的位置。
不用追每一波浪潮,但不能錯過整個時代
Sherwin Wu 在訪談最後說了一句值得玩味的話:接下來兩到三年,是一整個世代以來科技領域最令人興奮的時期。
他的實際建議是:不用去追每一個新工具的發布,不用讀每一篇 AI 論文。但你必須開始動手。選一兩個跟你工作最相關的 AI 工具,認真用起來。把 ChatGPT 連上你的內部資料源,試試看它能不能幫你解決那些每天重複做的無聊任務。
重點不是成為 AI 專家,而是建立一個直覺,知道 AI 在你的領域裡能做什麼、不能做什麼、做得好的是什麼、容易出錯的是什麼。這個直覺是需要時間累積的,而你現在開始累積,就比那些還在觀望的人多了幾個月的優勢。在模型能力以指數級進步的世界裡,幾個月的經驗差距,可能意味著完全不同的結果。