馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向

[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向

2026-05-18 | 來源: 愛范兒 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

伍天後，Cursor 放出了完整的 Composer 2 技術報告，顯示底座的確是 Kimi K2.5，授權方則是 Firworks AI，大致流程是在 K2.5 上做訓練，再繼續做大規模強化學習（RL）。

但關鍵之處在於，Composer 2 的 RL 是運行在真實的 Cursor 會話當中，使用與生產部署完全相同的工具和 harness。

Cursor 將這套流程叫做「實時強化學習」(real-time RL)，也即將模型的 checkpoint 直接部署到 Cursor 生產環境中，觀察用戶的響應，收集數據，聚合成獎勵信號，最快可以每 5 個小時迭代壹次模型版本，然後繼續部署到 Cursor 裡，循環往復。

最極致的案例是 Cursor 的自動化代碼補全功能 Tab，每天處理超過 4 億次請求，每當用戶輸入字符、移動光標時，模型都會預測下壹步動作，如果預測置信度高，則顯示建議，用戶按下 tab 即接受自動補全。

該功能采用的是在線強化學習，在行業內極具特色。Cursor 可以以極高的頻率（最快可達每壹個半小時到兩小時）更新 Tab 的模型能力給用戶，直接在產品內收集 on-policy 數據進行訓練。

這種高頻、接近實時的反饋回路，讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露，這種方法讓 Tab 建議的拒絕率降低 21%，接受率提高了 28%。

回到 Composer 模型本身。在事情搞清楚了之後，壹些 Kimi 員工也刪掉了之前吐槽的推文，Kimi 官方賬號發表了祝賀。

壹家估值 600 億美元（基於馬斯克給的數字），不做自己的模型基座的 coding agent 應用層公司，仍然可以通過產品自身的數據飛輪，RL 出超越基座模型的專有編程模型。

所以與其說 Cursor 翻了車，不如說這反而是 coding agent 產品重要性的絕佳例證。

Cursor 在另壹篇關於實時 RL 的文章裡寫到：「（訓練編程模型）最大的困難在於建模用戶。Composer 的生產環境裡不只有執行命令的計算機，還有監督和指導它的人。模擬計算機容易，模擬使用它的人卻很難。」

這句話，現正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價，會發現那些頭部的廠商都在發力做自己的 coding agent/編程產品。區別只在於誰離用戶更近。

我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例，Claude、GPT、Gemini、Kimi 等模型基本霸榜前拾，清壹色都是有自己開發 coding agent 產品（包括 CLI、IDE、集成 coding agent 的桌面客戶端）的模型廠商。

在部分榜單上會出現少數反例，如 Meta (Muse Spark)、Minimax、DeepSeek 等，沒有開發自己的 coding agent。

不過你會發現，這些反例模型，在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例，它在 SWE-bench bash only 上分數是 70%，排名第九，在 SWE-bench Pro 上分數卻掉到了 15% 左右。

OpenRouter 的真實流量數據可以解釋這種反差：該平台 2025 年報告顯示，Claude token 消費 80% 以上用於編程和技術任務，而 DeepSeek token 消費主要集中於閒聊和角色扮演。

沒有自家 coding 產品的廠商，在壹些 coding 任務 benchmark 上能擠進頭部，但在更難的真實工程 benchmark 上，在用戶用 token 消費投票的真實流量中，都會原形畢露。

不僅是 Cursor，Anthropic 在 2025 年 11 月發的壹篇論文裡，也明確透露自己在做壹模壹樣的事情：「我們在 Anthropic 自家的真實生產編程環境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數據，反哺給 Claude 模型用來訓練。

[加西網正招聘多名全職sales 待遇優] 好新聞沒人評論怎麼行，我來說幾句

分享:

上壹頁 1 2 345 6 7 8 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向

意見