[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向
伍天後,Cursor 放出了完整的 Composer 2 技術報告,顯示底座的確是 Kimi K2.5,授權方則是 Firworks AI,大致流程是在 K2.5 上做訓練,再繼續做大規模強化學習(RL)。
但關鍵之處在於,Composer 2 的 RL 是運行在真實的 Cursor 會話當中,使用與生產部署完全相同的工具和 harness。
Cursor 將這套流程叫做「實時強化學習」(real-time RL),也即將模型的 checkpoint 直接部署到 Cursor 生產環境中,觀察用戶的響應,收集數據,聚合成獎勵信號,最快可以每 5 個小時迭代壹次模型版本,然後繼續部署到 Cursor 裡,循環往復。
最極致的案例是 Cursor 的自動化代碼補全功能 Tab,每天處理超過 4 億次請求,每當用戶輸入字符、移動光標時,模型都會預測下壹步動作,如果預測置信度高,則顯示建議,用戶按下 tab 即接受自動補全。
該功能采用的是在線強化學習,在行業內極具特色。Cursor 可以以極高的頻率(最快可達每壹個半小時到兩小時)更新 Tab 的模型能力給用戶,直接在產品內收集 on-policy 數據進行訓練。
這種高頻、接近實時的反饋回路,讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露,這種方法讓 Tab 建議的拒絕率降低 21%,接受率提高了 28%。
回到 Composer 模型本身。在事情搞清楚了之後,壹些 Kimi 員工也刪掉了之前吐槽的推文,Kimi 官方賬號發表了祝賀。
壹家估值 600 億美元(基於馬斯克給的數字),不做自己的模型基座的 coding agent 應用層公司,仍然可以通過產品自身的數據飛輪,RL 出超越基座模型的專有編程模型。
所以與其說 Cursor 翻了車,不如說這反而是 coding agent 產品重要性的絕佳例證。

Cursor 在另壹篇關於實時 RL 的文章裡寫到:「(訓練編程模型)最大的困難在於建模用戶。Composer 的生產環境裡不只有執行命令的計算機,還有監督和指導它的人。模擬計算機容易,模擬使用它的人卻很難。」
這句話,現正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價,會發現那些頭部的廠商都在發力做自己的 coding agent/編程產品。區別只在於誰離用戶更近。
我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前拾,清壹色都是有自己開發 coding agent 產品(包括 CLI、IDE、集成 coding agent 的桌面客戶端)的模型廠商。
在部分榜單上會出現少數反例,如 Meta (Muse Spark)、Minimax、DeepSeek 等,沒有開發自己的 coding agent。
不過你會發現,這些反例模型,在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例,它在 SWE-bench bash only 上分數是 70%,排名第九,在 SWE-bench Pro 上分數卻掉到了 15% 左右。
OpenRouter 的真實流量數據可以解釋這種反差:該平台 2025 年報告顯示,Claude token 消費 80% 以上用於編程和技術任務,而 DeepSeek token 消費主要集中於閒聊和角色扮演。
沒有自家 coding 產品的廠商,在壹些 coding 任務 benchmark 上能擠進頭部,但在更難的真實工程 benchmark 上,在用戶用 token 消費投票的真實流量中,都會原形畢露。
不僅是 Cursor,Anthropic 在 2025 年 11 月發的壹篇論文裡,也明確透露自己在做壹模壹樣的事情:「我們在 Anthropic 自家的真實生產編程環境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數據,反哺給 Claude 模型用來訓練。
[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
但關鍵之處在於,Composer 2 的 RL 是運行在真實的 Cursor 會話當中,使用與生產部署完全相同的工具和 harness。
Cursor 將這套流程叫做「實時強化學習」(real-time RL),也即將模型的 checkpoint 直接部署到 Cursor 生產環境中,觀察用戶的響應,收集數據,聚合成獎勵信號,最快可以每 5 個小時迭代壹次模型版本,然後繼續部署到 Cursor 裡,循環往復。
最極致的案例是 Cursor 的自動化代碼補全功能 Tab,每天處理超過 4 億次請求,每當用戶輸入字符、移動光標時,模型都會預測下壹步動作,如果預測置信度高,則顯示建議,用戶按下 tab 即接受自動補全。
該功能采用的是在線強化學習,在行業內極具特色。Cursor 可以以極高的頻率(最快可達每壹個半小時到兩小時)更新 Tab 的模型能力給用戶,直接在產品內收集 on-policy 數據進行訓練。
這種高頻、接近實時的反饋回路,讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露,這種方法讓 Tab 建議的拒絕率降低 21%,接受率提高了 28%。
回到 Composer 模型本身。在事情搞清楚了之後,壹些 Kimi 員工也刪掉了之前吐槽的推文,Kimi 官方賬號發表了祝賀。
壹家估值 600 億美元(基於馬斯克給的數字),不做自己的模型基座的 coding agent 應用層公司,仍然可以通過產品自身的數據飛輪,RL 出超越基座模型的專有編程模型。
所以與其說 Cursor 翻了車,不如說這反而是 coding agent 產品重要性的絕佳例證。
Cursor 在另壹篇關於實時 RL 的文章裡寫到:「(訓練編程模型)最大的困難在於建模用戶。Composer 的生產環境裡不只有執行命令的計算機,還有監督和指導它的人。模擬計算機容易,模擬使用它的人卻很難。」
這句話,現正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價,會發現那些頭部的廠商都在發力做自己的 coding agent/編程產品。區別只在於誰離用戶更近。
我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前拾,清壹色都是有自己開發 coding agent 產品(包括 CLI、IDE、集成 coding agent 的桌面客戶端)的模型廠商。
在部分榜單上會出現少數反例,如 Meta (Muse Spark)、Minimax、DeepSeek 等,沒有開發自己的 coding agent。
不過你會發現,這些反例模型,在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例,它在 SWE-bench bash only 上分數是 70%,排名第九,在 SWE-bench Pro 上分數卻掉到了 15% 左右。
OpenRouter 的真實流量數據可以解釋這種反差:該平台 2025 年報告顯示,Claude token 消費 80% 以上用於編程和技術任務,而 DeepSeek token 消費主要集中於閒聊和角色扮演。
沒有自家 coding 產品的廠商,在壹些 coding 任務 benchmark 上能擠進頭部,但在更難的真實工程 benchmark 上,在用戶用 token 消費投票的真實流量中,都會原形畢露。
不僅是 Cursor,Anthropic 在 2025 年 11 月發的壹篇論文裡,也明確透露自己在做壹模壹樣的事情:「我們在 Anthropic 自家的真實生產編程環境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數據,反哺給 Claude 模型用來訓練。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦:



