把模型當硬碟,全部容量只存一件事:Cursor 的模型公司轉型邏輯

Cursor 研究負責人解釋為何從應用公司轉型為基礎模型公司:把模型想成一顆有限容量的硬碟,把所有位元都分配給軟體工程。這種極致專精讓 Composer 2 的成本只有通用模型的十分之一,效能卻不遜色。當每家 AI 應用公司都開始訓練自己的模型,工程師的角色也在改變。

把模型當硬碟,全部容量只存一件事:Cursor 的模型公司轉型邏輯

本文整理自 Sequoia Capital《Training Data》2026 年 5 月播出的單集。

{{< youtube UDTr9yUnLUI >}}


把模型想成一顆硬碟

「你可以把模型想成一顆儲存硬碟,」Cursor 的 Composer 研究負責人卡薩諾(Federico Cassano)這樣解釋他們自訓模型的核心邏輯。每個模型的權重能儲存的資訊量是有限的。通用模型把這些容量分散給了程式設計、數學推理、文案寫作、翻譯、閒聊等各種任務。Cursor 的想法很直接:我們只在乎一件事,就是在 Cursor 編輯器裡完成軟體工程任務,為什麼不把所有容量都分配給這件事?

這不是理論推演,而是已經兌現的成果。Composer 2 的推論成本大約是 Claude Opus 等通用程式設計模型的十分之一。原因很直覺:當模型不需要記住莎士比亞的十四行詩、不需要理解有機化學、不需要幫人規劃旅行,你就能用更小的模型達到同等甚至更好的專業表現。更小意味著更少的 GPU、更快的回應、更低的成本。以 Composer 2 目前的定價(每百萬輸入 token 0.5 美元、每百萬輸出 token 2.5 美元),比起上一代的 Composer 1.5 便宜了約 86%。

有人可能會問:這不是跟「苦澀教訓」(Bitter Lesson)矛盾嗎?過去幾年,AI 社群的共識是大力出奇蹟。更大的模型、更多的資料、更多的算力,通用能力自然會湧現。為什麼要走回專用模型的老路?Fireworks AI 共同創辦人暨技術長朱爾加科夫(Dmytro Dzhulgakov)的看法是,這其實是一個「進化模式」:應用公司一開始用現成模型快速建出原型,做一些提示工程(prompt engineering),搞清楚工具框架怎麼運作。但提示工程能走到的地方有上限。要打造真正出色的 AI 產品,你必須走到模型訓練這一步,把你產品的獨特行為直接「烤進」權重裡。卡薩諾也回應,Cursor 的做法恰恰符合苦澀教訓的精神,只是方向不同:他們在資料維度上猛推,用大量的軟體工程資料去飽和模型的有限容量。要飽和容量,就得先把其他領域的「雜訊」清掉。

站在開源巨人的肩膀上

既然要自訓模型,為什麼不從頭開始做預訓練?卡薩諾的回答非常務實:他們用的是「由上而下」的策略。如果從底層的預訓練做起,光搞定基礎建設就要好幾個月,然後做中期訓練,再做強化學習,整個流程走完,使用者等太久了。所以 Cursor 選了一個捷徑:從已經很強的開源基底模型出發。Composer 2 的基底是 Kimi K2.5,一個一兆參數的混合專家模型(MOE),實際運算時只啟動 300 億個參數。在這個基礎上做中期訓練和 RL,能在最短時間內把好用的模型交到使用者手上。

這個策略的核心取捨是:犧牲一部分底層控制力,換取速度。你不能完全掌控模型的每一層設計,因為那是別人的預訓練成果。但在目前這個階段,這個取捨很值得。卡薩諾也暗示,未來的 Composer 版本可能會是 Cursor 自己從頭訓練的模型,但那是後面的事。先讓產品跑起來、先讓使用者用上,這是產品公司的本能。

在開源基底之上,Composer 2 的訓練分成兩個軸向。第一個是中期訓練(mid-training),規模接近預訓練等級。在這個階段,模型大量吸收程式碼 token,學習各種程式庫的用法、常見的設計模式和一般性的世界知識。這本質上還是在做「預測下一個 token」,跟一般的語言模型訓練沒有根本差異。Cursor 坐擁大量使用者的程式碼互動資料,這讓他們在中期訓練的資料維度上有獨特優勢。

第二個軸向是大規模的強化學習(RL)。這是 Composer 2 跟第一代最大的差別:Composer 1 主要只推 RL 這一個方向,第二代則是兩個方向一起推。在 RL 階段,模型不再只是預測下一個 token,而是在 Cursor 的實際工具框架裡操作。它學會了三件關鍵的事:如何正確使用工具、如何在環境中導航,以及如何寫出「正確」的程式碼。

卡薩諾特別強調了「寫程式碼」和「寫正確的程式碼」的差別。中期訓練教會模型寫程式碼,但模型其實分不清好的程式碼和壞的程式碼,因為訓練資料裡兩種都有。RL 的角色是調整模型的內建標準,告訴它:你是專家,你每次都必須做對。就像一個醫學院學生讀完所有教科書之後,還需要住院醫師的實戰訓練才能成為稱職的醫生。

模擬 RL 打底,即時 RL 收尾

Cursor 同時使用兩種 RL。第一種是在模擬環境中的 RL,第二種是直接在真實使用者資料上的即時 RL(他們稱之為 real-time RL)。為什麼不直接用真實使用者資料就好?首先是效率問題:模擬環境裡可以對同一個提示跑 16 甚至 128 次不同的嘗試,用 GRPO(Group Policy Gradient)等演算法從多次嘗試的對比中提取精確的學習信號。真實使用者只會給你一次機會,信號精確度完全不能比。

其次是風險。在模擬環境裡,模型可以嘗試各種激進策略,失敗了也不影響任何人。如果是真實使用者,模型產出一個離譜的結果就是一次糟糕的產品體驗。卡薩諾直言這是一個弔詭的循環:「我們需要模型已經夠好,使用者才會用它。使用者用了才會給回饋,有了回饋才能讓模型更好。」所以模擬 RL 的角色是把模型推過品質門檻,教會它推理和工具使用。即時 RL 則是「蛋糕上的櫻桃」,用真實使用者的滿意或不滿意來打磨最後那一層體驗。

Cursor 目前每幾小時就會根據使用者的即時回饋更新一次模型版本。他們正在努力縮短這個更新週期,但有意思的是,未來反而可能需要拉長。因為模型處理的任務愈來愈長,一次完整的工作階段可能持續數十分鐘甚至更久,需要更多時間才能收集到完整的回饋信號。這種「先縮短再拉長」的節奏,反映了即時 RL 系統在工程效率和任務複雜度之間的張力。

RL 不只屬於 Agent

一個常見的假設是,RL 只對需要呼叫工具的 Agent 型模型才有價值。卡薩諾不同意。他認為 RL 適用於所有類型的模型,包括 Cursor 最基本的 Tab 自動補全功能。他提出一個有趣的理論:模型在預訓練階段吸收了全人類的知識,但它不知道自己該扮演什麼角色。面對一道數學題,它不確定自己應該是那個解題的專家,還是那個在 Stack Exchange 上提問的學生。RL 的作用就是「調這個旋鈕」,讓模型確定自己的定位:你是專家,你每次都必須做對。

朱爾加科夫從服務多家客戶的經驗印證了這個觀點。他觀察到的規律是:持續訓練和監督式微調負責「轉移新知識」,RL 負責「銳化特定行為」。兩者通常都需要。即使是摘要這種看似簡單的任務,RL 也能發揮作用。因為好的摘要風格很難用文字精確描述,但用 LLM 作為評判(LLM-as-judge)來制定評分準則卻相對容易:告訴評判 LLM 根據風格、事實性、完整度等標準來評分,然後讓被訓練的模型在 RL 迴圈中自己摸索出符合這些標準的做法。比起用人工寫好幾百個範例,這種方式靈活得多。

他進一步指出,前沿實驗室(Frontier Labs)訓練通用模型時需要各種第三方 RL 環境來覆蓋不同任務,但對 Cursor 這樣的應用公司來說,最強大的 RL 訓練環境不是什麼第三方平台,就是你自己的產品。因為那才是模型真正要運作的地方。當然,你不能讓模型在生產資料庫上亂來,需要適當的隔離和複製。但核心原則是明確的:你的 RL 環境應該盡可能貼近真實的生產環境,而誰最了解自己的生產環境?當然是你自己。

從寫軟體到寫評分規則

在訪談的尾聲,朱爾加科夫做了一個精準的歷史觀察。軟體產業走過了 Software 1.0(手寫程式碼)、2.0(用資料訓練模型)、到現在的 3.0(用 RL 調教模型行為)。在每一次轉變中,工程師做的事情都在移動:從直接寫軟體邏輯,到策劃訓練資料,到現在的「設計評分規則」。你不再告訴模型「該怎麼做」,而是定義「什麼算做得好」,然後讓 RL 帶著模型自己去探索。

這對打造 AI 產品的團隊來說,是一個很具體的能力轉型訊號。以前你的核心競爭力是寫出最好的提示詞或最巧的程式邏輯。現在,你需要的是設計出精確反映產品價值的評分體系:什麼樣的摘要算好?什麼樣的程式碼修改算正確?什麼樣的工具呼叫順序算高效?把這些準則量化、自動化,然後把計算資源灌進去。Cursor 用這條路從一家編輯器公司走成了一家模型公司,而且拿出了成績。這個轉型路徑不一定適用於每一家公司,但它證明了一件事:在 AI 應用的競爭中,願意走到模型訓練這一步的團隊,能夠觸及單純做提示工程的團隊碰不到的效能和成本邊界。