AI 技術前沿

Karpathy：App 這種東西，以後可能不需要存在了

Andrej Karpathy 在 Sequoia AI Ascent 2026 描述了一個讓他震驚的瞬間：他花好幾天 vibe coding 出來的 MenuGen app，被人用一句 Gemini prompt 就完全取代了。他認為我們正進入 Software 3.0 時代，程式設計的本質從寫程式碼變成管理 context window，未來的基礎設施都必須為 agent 重寫。

2026 年 5 月 12 日 · 來源： Sequoia Capital

本文整理自 Sequoia Capital《AI Ascent 2026》2026 年 4 月播出的單集。

{{< apple-podcast "tw/podcast/andrej-karpathy-at-sequoia-ai-ascent-2026-from-vibe/id1799918505?i=1000765806763" >}}

封面圖

花好幾天做的 App，一句 Prompt 就被取代了

OpenAI 共同創辦人、前 Tesla AI 總監 Andrej Karpathy 最近做了一個叫 MenuGen 的副專案。概念很簡單：你走進一間餐廳，拿起菜單，上面寫的菜你認得的大概只有三成，另外五成完全不知道是什麼。所以他做了一個 app，讓你拍一張菜單照片，AI 辨識每道菜名，用圖片生成模型產出每道菜的圖片，最後重新排版成有圖有文的新菜單。

他用 vibe coding 把這個 app 從零建了起來，部署在 Vercel 上，前端後端都有，串了 OCR、串了圖片生成 API，整個流程跑通了。然後他在 Sequoia AI Ascent 2026 的台上講了一件讓他「腦袋被炸開」的事：有人做了 MenuGen 的「Software 3.0 版本」。做法是什麼？把菜單照片丟給 Gemini，加一句 prompt 說「用 NanoBanana 把菜的圖片畫到菜單上」。Gemini 直接在原圖的像素裡渲染出每道菜的圖片，吐出一張修改過的菜單圖。沒有 app，沒有前端，沒有後端，沒有部署。一張圖進去，一張圖出來。

Karpathy 看著那個結果，得出了一個令人不安的結論：他花了好幾天建的那個完整 app，在這個新範式下，「根本不應該存在」。

從寫程式碼到管理 Context Window

要理解 Karpathy 為什麼會這麼說，得先理解他提出的三個軟體時代框架。Software 1.0 就是傳統的寫程式：你用明確的規則告訴電腦該做什麼，一行一行把邏輯寫清楚。Software 2.0 是他幾年前提出的概念：你不再逐行寫規則，改成準備資料集、設計神經網路架構、訓練模型，讓模型自己從資料中學會怎麼做。程式設計的對象從程式碼變成了資料和目標函數。

Software 3.0 又往前跨了一步。程式設計變成了「prompting」。你的 context window 就是你的槓桿，LLM 則是那個解讀你的 context 並在數位資訊空間中執行運算的解譯器。換句話說，你不再寫程式碼來告訴電腦做什麼，你也不再訓練模型讓它自己學會做什麼。你只是用自然語言描述你要什麼，然後 LLM 這台「可程式化的電腦」會自己想辦法。

Karpathy 用 OpenClaw（一個開源 AI 工具）的安裝流程來說明這個轉變。傳統上，安裝一個軟體需要一段 bash 腳本，這段腳本要處理各種不同的作業系統、不同的環境設定、各種邊緣狀況。這些腳本通常會膨脹到極其複雜。但 OpenClaw 的安裝方式是：一段文字，你把它複製貼上給你的 AI agent。Agent 讀懂指令，觀察你的電腦環境，自己判斷該做什麼，碰到問題就自己除錯。這比一個要覆蓋所有情境的 bash 腳本強大得多，因為 agent 自帶智能，能處理那些你根本無法事先預想到的狀況。

比加速更重要的是：以前做不到的事，現在可以了

Karpathy 反覆強調的一個重點是，Software 3.0 帶來的改變不只是「把現有的事做得更快」，而是讓一整類以前根本不存在的任務變得可行。很多人看 AI 還是用舊框架在看：寫程式碼變快了、查資料變快了、畫圖變快了。但 Karpathy 認為，更讓人興奮的是那些全新的可能性。

他的 LLM 知識庫專案就是一個典型的例子。他讓 AI 讀完一批文件，然後自動整理成一個有結構的 wiki。這不是傳統程式能做的事。沒有任何程式碼邏輯能把一堆非結構化的文章「重新編譯」成一個有組織、有交叉引用的知識庫。你需要的是一種能理解語義、能歸納、能重新組織資訊的運算能力。LLM 天生就具備這種能力，因為它本來就在數位資訊空間中運作。

如果你只是用 AI 來加速既有的工作流，你其實還在 Software 1.0 的思維裡打轉。真正擁抱 Software 3.0 的意思是，退一步問自己：「我現在做的這件事，本身是不是就不應該用 app 來做？有沒有一種更原生的方式，讓神經網路直接處理輸入、直接產出結果，中間完全不需要傳統的軟體架構？」MenuGen 就是那個讓 Karpathy 自己被迫面對這個問題的案例。

神經網路變成宿主，CPU 變成附屬品

Karpathy 把這個思路推到了極致。如果你順著 Software 3.0 的邏輯往前看，未來的電腦架構可能會變得很陌生。他回溯了一段計算機歷史：在 1950 到 1960 年代，研究者其實搞不清楚電腦該走「計算器」路線還是「神經網路」路線。結果我們走了計算器那條路，建立了整套古典計算架構。神經網路現在是虛擬化地跑在這些古典電腦上，但這個關係未來很可能會翻轉。

翻轉後的樣子是：神經網路成為主要的運算主體，傳統 CPU 反過來變成「協處理器」。當一個 AI agent 接到任務時，它自主地分析環境、做決策、執行動作、處理錯誤。偶爾它需要呼叫傳統 API 或執行一些確定性計算，但那些只是工具，不是主角。智能運算的算力支出已經在快速超越傳統運算，這個趨勢只會加速。

Karpathy 坦言，這個願景聽起來極端，而且具體的演進路徑還很難預測。但方向上他很確定：神經網路會做越來越多的「主秀」，傳統程式碼會退居成一種特殊用途的工具。他用「歷史遺留物」（historical appendage）來形容未來工具呼叫在 agent 工作流中的角色，這個詞選得很有意思，帶著一種對古典計算的溫柔告別。

一切都要為 Agent 重寫

如果 agent 將成為主要的「使用者」，那當前所有為人類設計的軟體基礎設施都得重建。Karpathy 對這一點感受特別深。他做 MenuGen 時，最痛苦的部分不是寫程式碼，而是部署。他得去 Vercel 的後台設定 DNS，去不同服務的管理頁面點來點去，手動串接各種 API。這些操作全是為人類設計的圖形介面，agent 在裡面寸步難行。

他提出了一個直白的測試標準：理想狀態下，你應該能給 AI 一個 prompt，它就從零幫你把整個 app 建好、部署好、上線，你完全不需要碰任何東西。現在做不到，因為基礎設施還是為人類設計的。所有的文件寫給人看，所有的設定介面給人點。Karpathy 吐槽說，每次看到某個工具的文件寫著「請到這個 URL 去設定」，他就覺得煩。他現在的心態是：「為什麼還有人在告訴我該做什麼？告訴我該複製貼上什麼給 agent 就好了。」

他認為未來的軟體世界需要把所有的工作負載拆解成「感測器」和「執行器」。Agent 需要能讀取世界的狀態（感測器），也需要能改變世界的狀態（執行器）。資料結構需要對 LLM 友善，而不是對人類的眼睛友善。他甚至描繪了一個更遠的未來：每個人和每個組織都有自己的 agent 代表，你的 agent 跟我的 agent 對話來安排會議和處理細節。這聽起來像科幻小說，但 Karpathy 認為方向已經很明確了。

理解是最後的瓶頸

在這場技術巨變中，Karpathy 最後把話題帶回了人。他引用了一句讓他每隔幾天就會想起的話：「你可以外包你的思考，但不能外包你的理解。」

他解釋了為什麼這句話打中他。Agent 可以幫你做研究、幫你寫報告、幫你跑分析。但最終，資訊還是得進到你的腦袋裡才有用。你得知道你要建什麼、為什麼值得建、agent 做出來的東西有沒有道理。如果你自己不理解基本原理，你就沒辦法當一個好的「導演」。Karpathy 觀察到，他現在最大的瓶頸不再是技術執行力，而是自己消化和綜合資訊的能力。

在一個 app 可能不需要存在、agent 可以自動化幾乎所有執行任務的世界裡，人類剩下的核心價值是什麼？Karpathy 的答案是：理解。理解問題的本質、理解技術的原理、理解什麼值得被建造。Software 3.0 把執行的門檻降到了接近零，但理解的門檻一點都沒降。如果說 Software 1.0 時代比的是誰能寫出更好的程式碼，Software 3.0 時代比的是誰對世界有更深的理解，以及誰能把這份理解轉化成正確的指令，讓 AI 去實現。