Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_197dc359db95b24962f455960a4b337f, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向 | 溫哥華地產中心
   

[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向

伍天後,Cursor 放出了完整的 Composer 2 技術報告,顯示底座的確是 Kimi K2.5,授權方則是 Firworks AI,大致流程是在 K2.5 上做訓練,再繼續做大規模強化學習(RL)。


但關鍵之處在於,Composer 2 的 RL 是運行在真實的 Cursor 會話當中,使用與生產部署完全相同的工具和 harness。

Cursor 將這套流程叫做「實時強化學習」(real-time RL),也即將模型的 checkpoint 直接部署到 Cursor 生產環境中,觀察用戶的響應,收集數據,聚合成獎勵信號,最快可以每 5 個小時迭代壹次模型版本,然後繼續部署到 Cursor 裡,循環往復。

最極致的案例是 Cursor 的自動化代碼補全功能 Tab,每天處理超過 4 億次請求,每當用戶輸入字符、移動光標時,模型都會預測下壹步動作,如果預測置信度高,則顯示建議,用戶按下 tab 即接受自動補全。

該功能采用的是在線強化學習,在行業內極具特色。Cursor 可以以極高的頻率(最快可達每壹個半小時到兩小時)更新 Tab 的模型能力給用戶,直接在產品內收集 on-policy 數據進行訓練。

這種高頻、接近實時的反饋回路,讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露,這種方法讓 Tab 建議的拒絕率降低 21%,接受率提高了 28%。

回到 Composer 模型本身。在事情搞清楚了之後,壹些 Kimi 員工也刪掉了之前吐槽的推文,Kimi 官方賬號發表了祝賀。

壹家估值 600 億美元(基於馬斯克給的數字),不做自己的模型基座的 coding agent 應用層公司,仍然可以通過產品自身的數據飛輪,RL 出超越基座模型的專有編程模型。

所以與其說 Cursor 翻了車,不如說這反而是 coding agent 產品重要性的絕佳例證。



Cursor 在另壹篇關於實時 RL 的文章裡寫到:「(訓練編程模型)最大的困難在於建模用戶。Composer 的生產環境裡不只有執行命令的計算機,還有監督和指導它的人。模擬計算機容易,模擬使用它的人卻很難。」

這句話,現正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價,會發現那些頭部的廠商都在發力做自己的 coding agent/編程產品。區別只在於誰離用戶更近。


我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前拾,清壹色都是有自己開發 coding agent 產品(包括 CLI、IDE、集成 coding agent 的桌面客戶端)的模型廠商。

在部分榜單上會出現少數反例,如 Meta (Muse Spark)、Minimax、DeepSeek 等,沒有開發自己的 coding agent。

不過你會發現,這些反例模型,在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例,它在 SWE-bench bash only 上分數是 70%,排名第九,在 SWE-bench Pro 上分數卻掉到了 15% 左右。

OpenRouter 的真實流量數據可以解釋這種反差:該平台 2025 年報告顯示,Claude token 消費 80% 以上用於編程和技術任務,而 DeepSeek token 消費主要集中於閒聊和角色扮演。

沒有自家 coding 產品的廠商,在壹些 coding 任務 benchmark 上能擠進頭部,但在更難的真實工程 benchmark 上,在用戶用 token 消費投票的真實流量中,都會原形畢露。

不僅是 Cursor,Anthropic 在 2025 年 11 月發的壹篇論文裡,也明確透露自己在做壹模壹樣的事情:「我們在 Anthropic 自家的真實生產編程環境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數據,反哺給 Claude 模型用來訓練。

[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀 更多...
    馬斯克起訴OpenAI案敗訴,陪審團裁定起訴超時效 馬斯克對OpenAI和奧特曼所有指控被駁回:時效已過!
    法官兩次訓斥馬斯克...巨頭世紀庭審大混戰 川習會國宴坐馬斯克和庫克之間 她出圈了
    史上最大IPO要來了 馬斯克:壹股不賣 埃隆馬斯克傳:極致的天才都是與痛苦共生的偏執者
    馬斯克對雷軍"愛答不理"?國宴合照讓多少人破防了 黃仁勳馬斯克"空手而回"?美中回到"穩定對抗"時代?
    馬斯克:我為什麼不能被SpaceX解雇.... 馬斯克不會出售所持SpaceX公司股份
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站