AI 產業動態

把模型當硬碟，全部容量只存一件事：Cursor 的模型公司轉型邏輯

Cursor 研究負責人解釋為何從應用公司轉型為基礎模型公司：把模型想成一顆有限容量的硬碟，把所有位元都分配給軟體工程。這種極致專精讓 Composer 2 的成本只有通用模型的十分之一，效能卻不遜色。當每家 AI 應用公司都開始訓練自己的模型，工程師的角色也在改變。

2026 年 5 月 30 日 · 來源： Sequoia Capital Training Data

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的單集。

把模型想成一顆硬碟

「你可以把模型想成一顆儲存硬碟，」Cursor 的 Composer 研究負責人卡薩諾（Federico Cassano）這樣解釋他們自訓模型的核心邏輯。每個模型的權重能儲存的資訊量是有限的。通用模型把這些容量分散給了程式設計、數學推理、文案寫作、翻譯、閒聊等各種任務。Cursor 的想法很直接：我們只在乎一件事，就是在 Cursor 編輯器裡完成軟體工程任務，為什麼不把所有容量都分配給這件事？

這不是理論推演，而是已經兌現的成果。Composer 2 的推論成本大約是 Claude Opus 等通用程式設計模型的十分之一。原因很直覺：當模型不需要記住莎士比亞的十四行詩、不需要理解有機化學、不需要幫人規劃旅行，你就能用更小的模型達到同等甚至更好的專業表現。更小意味著更少的 GPU、更快的回應、更低的成本。以 Composer 2 目前的定價（每百萬輸入 token 0.5 美元、每百萬輸出 token 2.5 美元），比起上一代的 Composer 1.5 便宜了約 86%。

有人可能會問：這不是跟「苦澀教訓」（Bitter Lesson）矛盾嗎？過去幾年，AI 社群的共識是大力出奇蹟。更大的模型、更多的資料、更多的算力，通用能力自然會湧現。為什麼要走回專用模型的老路？Fireworks AI 共同創辦人暨技術長朱爾加科夫（Dmytro Dzhulgakov）的看法是，這其實是一個「進化模式」：應用公司一開始用現成模型快速建出原型，做一些提示工程（prompt engineering），搞清楚工具框架怎麼運作。但提示工程能走到的地方有上限。要打造真正出色的 AI 產品，你必須走到模型訓練這一步，把你產品的獨特行為直接「烤進」權重裡。卡薩諾也回應，Cursor 的做法恰恰符合苦澀教訓的精神，只是方向不同：他們在資料維度上猛推，用大量的軟體工程資料去飽和模型的有限容量。要飽和容量，就得先把其他領域的「雜訊」清掉。

站在開源巨人的肩膀上

既然要自訓模型，為什麼不從頭開始做預訓練？卡薩諾的回答非常務實：他們用的是「由上而下」的策略。如果從底層的預訓練做起，光搞定基礎建設就要好幾個月，然後做中期訓練，再做強化學習，整個流程走完，使用者等太久了。所以 Cursor 選了一個捷徑：從已經很強的開源基底模型出發。Composer 2 的基底是 Kimi K2.5，一個一兆參數的混合專家模型（MOE），實際運算時只啟動 300 億個參數。在這個基礎上做中期訓練和 RL，能在最短時間內把好用的模型交到使用者手上。

這個策略的核心取捨是：犧牲一部分底層控制力，換取速度。你不能完全掌控模型的每一層設計，因為那是別人的預訓練成果。但在目前這個階段，這個取捨很值得。卡薩諾也暗示，未來的 Composer 版本可能會是 Cursor 自己從頭訓練的模型，但那是後面的事。先讓產品跑起來、先讓使用者用上，這是產品公司的本能。

在開源基底之上，Composer 2 的訓練分成兩個軸向。第一個是中期訓練（mid-training），規模接近預訓練等級。在這個階段，模型大量吸收程式碼 token，學習各種程式庫的用法、常見的設計模式和一般性的世界知識。這本質上還是在做「預測下一個 token」，跟一般的語言模型訓練沒有根本差異。Cursor 坐擁大量使用者的程式碼互動資料，這讓他們在中期訓練的資料維度上有獨特優勢。

第二個軸向是大規模的強化學習（RL）。這是 Composer 2 跟第一代最大的差別：Composer 1 主要只推 RL 這一個方向，第二代則是兩個方向一起推。在 RL 階段，模型不再只是預測下一個 token，而是在 Cursor 的實際工具框架裡操作。它學會了三件關鍵的事：如何正確使用工具、如何在環境中導航，以及如何寫出「正確」的程式碼。

卡薩諾特別強調了「寫程式碼」和「寫正確的程式碼」的差別。中期訓練教會模型寫程式碼，但模型其實分不清好的程式碼和壞的程式碼，因為訓練資料裡兩種都有。RL 的角色是調整模型的內建標準，告訴它：你是專家，你每次都必須做對。就像一個醫學院學生讀完所有教科書之後，還需要住院醫師的實戰訓練才能成為稱職的醫生。

模擬 RL 打底，即時 RL 收尾

Cursor 同時使用兩種 RL。第一種是在模擬環境中的 RL，第二種是直接在真實使用者資料上的即時 RL（他們稱之為 real-time RL）。為什麼不直接用真實使用者資料就好？首先是效率問題：模擬環境裡可以對同一個提示跑 16 甚至 128 次不同的嘗試，用 GRPO（Group Policy Gradient）等演算法從多次嘗試的對比中提取精確的學習信號。真實使用者只會給你一次機會，信號精確度完全不能比。

其次是風險。在模擬環境裡，模型可以嘗試各種激進策略，失敗了也不影響任何人。如果是真實使用者，模型產出一個離譜的結果就是一次糟糕的產品體驗。卡薩諾直言這是一個弔詭的循環：「我們需要模型已經夠好，使用者才會用它。使用者用了才會給回饋，有了回饋才能讓模型更好。」所以模擬 RL 的角色是把模型推過品質門檻，教會它推理和工具使用。即時 RL 則是「蛋糕上的櫻桃」，用真實使用者的滿意或不滿意來打磨最後那一層體驗。

Cursor 目前每幾小時就會根據使用者的即時回饋更新一次模型版本。他們正在努力縮短這個更新週期，但有意思的是，未來反而可能需要拉長。因為模型處理的任務愈來愈長，一次完整的工作階段可能持續數十分鐘甚至更久，需要更多時間才能收集到完整的回饋信號。這種「先縮短再拉長」的節奏，反映了即時 RL 系統在工程效率和任務複雜度之間的張力。

RL 不只屬於 Agent

一個常見的假設是，RL 只對需要呼叫工具的 Agent 型模型才有價值。卡薩諾不同意。他認為 RL 適用於所有類型的模型，包括 Cursor 最基本的 Tab 自動補全功能。他提出一個有趣的理論：模型在預訓練階段吸收了全人類的知識，但它不知道自己該扮演什麼角色。面對一道數學題，它不確定自己應該是那個解題的專家，還是那個在 Stack Exchange 上提問的學生。RL 的作用就是「調這個旋鈕」，讓模型確定自己的定位：你是專家，你每次都必須做對。

朱爾加科夫從服務多家客戶的經驗印證了這個觀點。他觀察到的規律是：持續訓練和監督式微調負責「轉移新知識」，RL 負責「銳化特定行為」。兩者通常都需要。即使是摘要這種看似簡單的任務，RL 也能發揮作用。因為好的摘要風格很難用文字精確描述，但用 LLM 作為評判（LLM-as-judge）來制定評分準則卻相對容易：告訴評判 LLM 根據風格、事實性、完整度等標準來評分，然後讓被訓練的模型在 RL 迴圈中自己摸索出符合這些標準的做法。比起用人工寫好幾百個範例，這種方式靈活得多。

他進一步指出，前沿實驗室（Frontier Labs）訓練通用模型時需要各種第三方 RL 環境來覆蓋不同任務，但對 Cursor 這樣的應用公司來說，最強大的 RL 訓練環境不是什麼第三方平台，就是你自己的產品。因為那才是模型真正要運作的地方。當然，你不能讓模型在生產資料庫上亂來，需要適當的隔離和複製。但核心原則是明確的：你的 RL 環境應該盡可能貼近真實的生產環境，而誰最了解自己的生產環境？當然是你自己。

從寫軟體到寫評分規則

在訪談的尾聲，朱爾加科夫做了一個精準的歷史觀察。軟體產業走過了 Software 1.0（手寫程式碼）、2.0（用資料訓練模型）、到現在的 3.0（用 RL 調教模型行為）。在每一次轉變中，工程師做的事情都在移動：從直接寫軟體邏輯，到策劃訓練資料，到現在的「設計評分規則」。你不再告訴模型「該怎麼做」，而是定義「什麼算做得好」，然後讓 RL 帶著模型自己去探索。

這對打造 AI 產品的團隊來說，是一個很具體的能力轉型訊號。以前你的核心競爭力是寫出最好的提示詞或最巧的程式邏輯。現在，你需要的是設計出精確反映產品價值的評分體系：什麼樣的摘要算好？什麼樣的程式碼修改算正確？什麼樣的工具呼叫順序算高效？把這些準則量化、自動化，然後把計算資源灌進去。Cursor 用這條路從一家編輯器公司走成了一家模型公司，而且拿出了成績。這個轉型路徑不一定適用於每一家公司，但它證明了一件事：在 AI 應用的競爭中，願意走到模型訓練這一步的團隊，能夠觸及單純做提示工程的團隊碰不到的效能和成本邊界。