[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向
1.
OpenAI 的兩大宿敵 Anthropic 和馬斯克,放下心中成見之後終於在月初結盟了。
在此之前,Anthropic 和馬斯克的關系並不融洽:今年 2 月,馬斯克還在自己的 X 賬號指責 A 社「woke」「邪惡」「反人類」(misanthropic),說這家公司「仇視文明」。

事後來看,這次攻擊並非馬斯克清新脫俗的性格使然,而是 Anthropic 所做的某些事情觸碰到他的神經,事出有因。
在此之前,xAI 內部使用 Cursor 工作,但是今年年初員工發現,Claude 模型突然在 xAI 的 Cursor 公司賬號裡不能使用了。
當時還在 xAI 上班的聯合創始人吳宇懷,在全員信裡是這麼說的:「Anthropic 更新了政策,要求 Cursor 不得向其主要競爭對手提供 Claude 模型調用能力。」
後來,xAI 整個聯創團隊都散伙了,實體也跟 SpaceX 合並,成為「SpaceXAI」。但當時,吳宇懷在信中寫了壹句話,頗為有趣:
「這是壞消息也是好消息。我們的生產力會被影響,但這也敦促我們開發自己的編碼產品和模型。」
為什麼當時 xAI 的高層認為,開發自己的編碼產品是關鍵?

後來發生的事情,大家都知道了。xAI 的聯創團隊悉數跑路,馬斯克壹氣之下對 Cursor 使用了鈔能力必殺:
上個月底,SpaceX 和 Cursor 共同宣布,將在編程和知識類工作 AI 模型的訓練上,展開前所未有的戰略合作;並且,SpaceX 還獲得了以 600 億美元收購 Cursor 的權利,或向後者支付 100 億美元合作費用。
注意編程這個關鍵定語,後面還會 call back.
2.
最近,我看了壹條 Cursor 早期投資人、Anthropic 大噴子、T3 創始人 Theo Browne 的視頻。
本來點進去是看他噴 A 社和 SpaceX 怎麼蠅營狗苟,結果沒想到,卻看到了關於 SpaceX + Cursor 合作的,壹個既另類卻又極度合理的分析:
不說 600 億的收購,就只說 100 億的合作費——Theo 在視頻裡表示,自己認為「哪怕只是交換到 Cursor 的用戶數據,這 100 億也值回票價了。」

所以是什麼數據?如果你也去看 Theo 這條視頻,他會講得非常清楚。但為了節約時間,我們在這裡簡單概括壹下:
我們和 AI 的對話是壹來壹回的,你提出問題/需求,它給你解答;coding agent 同理,只不過返回的是代碼。

壹次高質量的對話,整個過程,包括用戶提示、模型思考、agent 規劃、輸出代碼、驗證——所有這些東西合起來,可以稱為壹個完整的 Agentic Loop——就成為了高價值的訓練數據,再喂給模型去進行強化學習,就能進壹步提高模型在實戰場景下的表現水准。

Cursor 有的,SpaceX 想要的,就是這些數據。
可這些數據從哪裡來呢?
答案很簡單:作為模型廠商,這種高質量數據的最直接來源,只能是你自己開發的 coding agent 產品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
現在你應該明白了,為什麼被 Anthropic「封號」之後,吳宇懷會在全員信裡提出開發 xAI 自己的 coding 產品和模型這件事了。這件事 xAI 在當時已經看清楚了:
沒有自己的編碼產品,就沒有高質量的強化學習數據;沒有高質量的數據,就訓練不出真正實戰能力強的 coding 模型。
雖然有點暴論,但現在我們可以點題了:模型廠商想做出來真正能打的編程模型,做自己的 coding agent 產品是唯壹的路徑。
3.
大語言模型像個水晶球,用全網的語料訓練出來,似乎能夠解答萬物,但並不代表它在所有問題上都能給出高質量的答案。
用 GitHub 上數以億計的代碼條目訓練,當然也能訓練出 coding 模型。這是「學習結果」的邏輯,也是沒問題的。畢竟編碼任務的結果是可以驗證的:代碼能不能運行,測試能否通過,結果擺在那裡。
但是,通往結果的過程,是壹個涉及多步驟決策、錯誤糾正、意圖對齊的復雜鏈條。每壹次用戶的接受、拒絕、補全、撤銷、追問、甚至當模型好幾次都搞不定或者完全搞錯時的辱罵——都是這壹鏈條上的過程信號。

強化學習有兩種監督方式,壹種叫做結果監督,只看最後是否跑通。但是結果監督會催生「獎勵黑客」的現象:模型為了能跑通可能寫出冗余、脆弱、帶邏輯漏洞的代碼,但因為測試過了,模型以為自己學對了。
而另壹種叫做過程監督,對推理路徑上的每壹步進行打分。上述這些過程信號,只有在 coding agent 運行環境裡才能誕生。GitHub 倉庫裡只有結果,哪怕是去看單獨的提交歷史,看 PR,都找不到有效的過程信號。
在缺乏有效、自主可獲得的過程信號的時候,壹些模型廠商會采用「蒸餾」的方式,這個事情大家應該已經知道了。
蒸餾的邏輯很簡單,給同樣的輸入,老師模型輸出什麼,學生模型就學著輸出什麼。但是通過蒸餾,即便可以獲取到思維鏈,得到的仍然更像是結果,而非被蒸餾的老師模型內部的概率分布。
壹旦學生在推理中偏離了老師的軌跡,哪怕壹個 token 不符合,都有可能發生偏離。

這背後是強化學習的基礎限制:策略梯度定理要求,優化樣本最好由當前正在優化的模型自己去產生。這種數據叫做 on-policy 數據。而通過蒸餾別家模型,在別人的產品裡產生的數據,來訓練自己模型,都屬於 off-policy 數據。模型當然可以從中學到東西,但學不到老師模型內部的概率分布信息。
而像 Cursor 這樣自己就是 coding agent 產品的公司,掌握著最真實、有效、高質量的訓練數據。Cursor 產品本身,就是 coding 模型在實戰環境中的最佳訓練場。
我們可以通過 Cursor 年初的「翻車」,來證明這個邏輯。
4.
APPSO 讀者應該記得,年初 Cursor 發布了 Composer 2,號稱「下壹代專用編程模型」,技術報道寫的相對保守,自報家門是新模型,也沒有提供具體的模型底座信息。

結果很快,網友就在公開代碼片段裡發現了 Kimi 的模型 ID,截圖傳遍了開發者社群,逼得 Cursor 副總裁 Lee Robinson 出面澄清:「Composer 2 確實是從開源底座出發的。最終模型大約只有 1/4 的算力來自底座,剩下 3/4 是我們自己訓出來的。」幾小時後,Cursor 聯創 Aman Sanger 也跟著發了壹條道歉:「壹開始沒提 Kimi 底座是個失誤。」

伍天後,Cursor 放出了完整的 Composer 2 技術報告,顯示底座的確是 Kimi K2.5,授權方則是 Firworks AI,大致流程是在 K2.5 上做訓練,再繼續做大規模強化學習(RL)。
但關鍵之處在於,Composer 2 的 RL 是運行在真實的 Cursor 會話當中,使用與生產部署完全相同的工具和 harness。
Cursor 將這套流程叫做「實時強化學習」(real-time RL),也即將模型的 checkpoint 直接部署到 Cursor 生產環境中,觀察用戶的響應,收集數據,聚合成獎勵信號,最快可以每 5 個小時迭代壹次模型版本,然後繼續部署到 Cursor 裡,循環往復。
最極致的案例是 Cursor 的自動化代碼補全功能 Tab,每天處理超過 4 億次請求,每當用戶輸入字符、移動光標時,模型都會預測下壹步動作,如果預測置信度高,則顯示建議,用戶按下 tab 即接受自動補全。
該功能采用的是在線強化學習,在行業內極具特色。Cursor 可以以極高的頻率(最快可達每壹個半小時到兩小時)更新 Tab 的模型能力給用戶,直接在產品內收集 on-policy 數據進行訓練。
這種高頻、接近實時的反饋回路,讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露,這種方法讓 Tab 建議的拒絕率降低 21%,接受率提高了 28%。
回到 Composer 模型本身。在事情搞清楚了之後,壹些 Kimi 員工也刪掉了之前吐槽的推文,Kimi 官方賬號發表了祝賀。
壹家估值 600 億美元(基於馬斯克給的數字),不做自己的模型基座的 coding agent 應用層公司,仍然可以通過產品自身的數據飛輪,RL 出超越基座模型的專有編程模型。
所以與其說 Cursor 翻了車,不如說這反而是 coding agent 產品重要性的絕佳例證。

Cursor 在另壹篇關於實時 RL 的文章裡寫到:「(訓練編程模型)最大的困難在於建模用戶。Composer 的生產環境裡不只有執行命令的計算機,還有監督和指導它的人。模擬計算機容易,模擬使用它的人卻很難。」
這句話,現正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價,會發現那些頭部的廠商都在發力做自己的 coding agent/編程產品。區別只在於誰離用戶更近。
我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前拾,清壹色都是有自己開發 coding agent 產品(包括 CLI、IDE、集成 coding agent 的桌面客戶端)的模型廠商。
在部分榜單上會出現少數反例,如 Meta (Muse Spark)、Minimax、DeepSeek 等,沒有開發自己的 coding agent。
不過你會發現,這些反例模型,在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例,它在 SWE-bench bash only 上分數是 70%,排名第九,在 SWE-bench Pro 上分數卻掉到了 15% 左右。
OpenRouter 的真實流量數據可以解釋這種反差:該平台 2025 年報告顯示,Claude token 消費 80% 以上用於編程和技術任務,而 DeepSeek token 消費主要集中於閒聊和角色扮演。
沒有自家 coding 產品的廠商,在壹些 coding 任務 benchmark 上能擠進頭部,但在更難的真實工程 benchmark 上,在用戶用 token 消費投票的真實流量中,都會原形畢露。
不僅是 Cursor,Anthropic 在 2025 年 11 月發的壹篇論文裡,也明確透露自己在做壹模壹樣的事情:「我們在 Anthropic 自家的真實生產編程環境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數據,反哺給 Claude 模型用來訓練。

5.
在 AI 的演進歷程中,生產要素的定義發生了深刻的位移。傳統叁大核心要素——算力、研究、訓練數據,雖然在總量上持續增長,但在結構上已經出現了嚴重的失衡。
今天的各大 AI 巨頭顯著提高了在算力上的資本支出 (CapEx),讓算力基建成為了當前輿論的主旋律。但實際上,特別是在編程范疇內,隨著 GitHub 倉庫、StackOverflow 等互聯網公開代碼數據被基模廠商「竭澤而漁」式地利用,模型在代碼生成與邏輯推理上的邊界開始逐漸顯現。
這也是為什麼,行業共識正在逐漸轉向壹個冉冉升起的新戰略高地:對於任何希望掌握頂級代碼能力的模型廠商而言,建立自有的 coding agent 產品早已不再是可選的商業路線,而是確保底層模型可以持續進化的核心生命線。
正如前面 APPSO 論證的那樣,單純學習公開數據等於只學習成功者的結局,卻無法了解成功的路徑,這絕對不是正確的成功學應該有的樣子。在真實的編程環境中,知道發生了什麼錯誤、怎樣發生的、如何正確地理解和高效地實踐需求等等——了解正確過程的價值,遠超於得到正確結果本身。

只有擁有自己的編碼產品,模型廠商才能獲取高質量的「過程監督」信號,從而在編碼/推理能力的下壹階段競爭中,確保自己仍有技術護城河——
否則就不得不像 SpaceXAI 那樣,花錢去跟 coding agent 產品公司去合作。然而並不是所有模型廠商都跟馬斯克壹樣有錢,以及 2026 年開始的巨頭勢力劃分、結盟與領地的爭斗會變得更加激烈,當壹家缺乏自主 coding 產品的模型廠商終於回過味來的時候,恐怕已經沒有足夠的合作伙伴可以挑選,合作的價格也將水漲船高。
美國模型巨頭的情況大家普遍比較熟悉了,在此不贅述。APPSO 也注意到,國內的主流模型廠商和 AI 巨頭當中,絕大部分都已經在 coding agent 產品上有所布局。
國內巨頭公司主要以原生 AI IDE 或 IDE 插件的思路在做:字節跳動去年很早就布局了 TRAE、阿裡巴巴的 Qoder、騰訊的 CodeBuddy、百度的文心快碼 Comate 等。
AI 小龍公司中,月之暗面是最早開發獨立 coding agent 產品的公司,主要以 CLI 界面的 Kimi Code 為主——不過 Kimi 此前有透露過,在原生編程產品這件事上,CLI 不會是終局。

另壹種實現思路是模型廠商自行提供 API 服務、Coding Plan。這樣,不論用戶使用何種 AI 開發環境,模型廠商都可以通過服務器端的 API 記錄來獲取最大程度接近於原生 coding 產品的過程數據。
但這也只是接近,並非完全相同。核心在於,服務器端 API 的請求-響應日志,與深度嵌入的產品交互軌跡相比仍有很大差距。
自建產品的廠商(例如 Cursor、Claude 桌面端、Codex)擁有最直接的顯式反饋信號,而 API 側是相對模糊的隱式推斷。簡單來說,API 側能看到用戶請求和響應,但用戶最後是否采納了這段代碼、代碼能否跑通、引發了什麼樣的 bug,API 側對此是壹無所知的。他們無法了解到用戶最終行為這壹關鍵的標簽,從而無法實現最高質量的強化學習。
形而上來講,語言即世界,代碼即方案。代碼可以表達這個世界上絕大多數的任務,代碼也會成為頭部的放大器,讓最頂尖的人才放大數倍的生產力。
只有最頂尖的 coding 模型才配得上最頂尖的人才。如果領先的模型廠商不重視 coding,勢必將會掉出第壹梯隊。
當然,事實上每家模型廠商都不會不重視 coding——而是說,在新的范式下,那些沒有自主可控的原生 coding agent 產品,極有可能逐漸落後於有產品的廠商。
就在前幾天,MiniMax 也發布了桌面客戶端產品的重大更新:帶有全新多 agent 編排架構的 Mavis 功能,並且也讓客戶端顯著改善了對 coding 任務的支持。
此前 MiniMax 只是推出了桌面端,但沒有加入原生 coding 和 agent 功能。


緊接著,在 5 月 15 日,阿裡巴巴正式發布了 Qoder 1.0——這個產品從 IDE 的形態正式升級為壹個完整的 Agent 產品(阿裡的官方叫法是智能體自主開發工作台)。

與此同時,xAI 的 Grok Build CLI,也終於正式推出了。
沒錯,就是 xAI 年初被 Anthropic 和 Cursor 封號之後,他們自己搗鼓出來的那個 coding agent.

這不,又多了好幾個現成的案例。
看來,大家都認為 Cursor、Codex 和 Claude 桌面端走在正確的道路上。
6.
把話題從 coding 擴展到 agent 本身,情況也是壹樣的。
編碼任務的軌跡數據,在公開語料中確實還是能找到壹些的(比如 GitHub 的提交記錄/PR,盡管質量並不高)。但是 agent 任務的軌跡數據,包括但不限於移動和點擊鼠標、操控觸屏、填寫輸入框等,卻無法在公開語料中找到。
所以我們會看到,即使在 agent 操作的最小實現路徑——瀏覽器插件上,即便是這麼個看起來壹點都不高端的東西,幾乎每家模型廠商都會做自己的。
OpenAI 早在 2025 年 1 月就做了 Operator——與其說它是壹個「AI 自動操作瀏覽器」的產品,不如說本質上就是壹個大規模的數據收集裝置。每壹位試用 Operator 的用戶,都在免費為 OpenAI 提供 on-policy 數據。
後續 OpenAI 還衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不聲不響地也做了壹個叫做 WebBridge 的項目,其實就是壹個瀏覽器插件。

即便是在過去兩年裡動作最克制的中國模型巨頭深度求索,也在最近開始展露出對 Agent 的興趣。
CEO 梁文鋒此前接受采訪時曾經提到這樣的觀點:數學和代碼是AGI天然的試驗場,有點像圍棋,是壹個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能。
這句話的潛台詞,是 DeepSeek 壹直把 coding、Agent 當研究試驗場,而非商業化方向。
但是在今年 3 月,DeepSeek 壹次性放出了拾幾個 Agent 相關崗位,包括首次出現的模型策略產品經理(Agent 方向)等。當時的 JD 職責涵蓋「主導 Agent 評測體系以及訓練數據方案的設計」,要求中包括「深度使用 Claude Code、Manus」等產品。
APPSO 注意到,近期深度求索發布了 Agent 產品經理、Harness 產品經理等職位招聘信息——很顯然,DeepSeek 要做獨立、原生的 Coding/Agent 產品了。

此前資料顯示,DeepSeek V3.2 的訓練過程中引入了近兩千個合成的 Agent 訓練環境和八萬多條復雜指令。但是看起來,靠合成的訓練數據只能帶 DeepSeek 走到這裡了,剩下的是合成不出來的部分:真實用戶在真實環境裡的真實成功和失敗,必須靠自家的 agent 產品才能拿到。
DeepSeek 以壹種極度克制的方式做了叁年模型以及模型產品(直到上個月才終於在官網加入了多模態能力)。但是在今天來看,在編碼類任務上,DeepSeek 拿 SOTA 越來越難了,即便此前拿到也會在不久後被超越。
當助理依靠研究的路徑支撐不住飛輪的時候,DeepSeek 終於行動了。
7.
最後,我們回到開篇的故事。
根據 The Information 報道援引知情人士報道,在接受馬斯克 600 億收購/100 億美元合作的同時,Cursor 表示不會與 xAI 合作開發新的模型,而是仍將聚焦於優化自己的 Composer 模型。
這意味著,即便被馬斯克買通甚至收購,Cursor 仍然要保留自己數據飛輪的主體性。
數據歸屬的本身,是最關鍵的隱藏博弈點。
當所有頂級模型廠商都做了自己的產品,所有頂級產品也都開始訓練自己的模型,「模型公司」和「產品公司」的本就不太清楚的界限,似乎越來越不存在了……
這場博弈也才剛剛開始。
文|杜晨
參考資料:
Theo - t3.gg: www.youtube.com/watch?v=3pkz-Ie_k_c
Composer 2 技術報告:cursor.com/cn/blog/composer-2-technical-report
Anthropic 論文:arxiv.org/abs/2511.18397
結果監督 vs 過程監督: www.emergentmind.com/topics/process-vs-outcome-supervision
強化學習的信號誤差:https://openreview.net/pdf?id=TDfrN1TbGH
關於自建 or 購買過程數據的討論:https://www.reddit.com/r/AI_Agents/comments/1snc116/the_overlooked_trend_of_building_custom_ai_agents/
部分圖片為 AI 生成
[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
OpenAI 的兩大宿敵 Anthropic 和馬斯克,放下心中成見之後終於在月初結盟了。
在此之前,Anthropic 和馬斯克的關系並不融洽:今年 2 月,馬斯克還在自己的 X 賬號指責 A 社「woke」「邪惡」「反人類」(misanthropic),說這家公司「仇視文明」。
事後來看,這次攻擊並非馬斯克清新脫俗的性格使然,而是 Anthropic 所做的某些事情觸碰到他的神經,事出有因。
在此之前,xAI 內部使用 Cursor 工作,但是今年年初員工發現,Claude 模型突然在 xAI 的 Cursor 公司賬號裡不能使用了。
當時還在 xAI 上班的聯合創始人吳宇懷,在全員信裡是這麼說的:「Anthropic 更新了政策,要求 Cursor 不得向其主要競爭對手提供 Claude 模型調用能力。」
後來,xAI 整個聯創團隊都散伙了,實體也跟 SpaceX 合並,成為「SpaceXAI」。但當時,吳宇懷在信中寫了壹句話,頗為有趣:
「這是壞消息也是好消息。我們的生產力會被影響,但這也敦促我們開發自己的編碼產品和模型。」
為什麼當時 xAI 的高層認為,開發自己的編碼產品是關鍵?
後來發生的事情,大家都知道了。xAI 的聯創團隊悉數跑路,馬斯克壹氣之下對 Cursor 使用了鈔能力必殺:
上個月底,SpaceX 和 Cursor 共同宣布,將在編程和知識類工作 AI 模型的訓練上,展開前所未有的戰略合作;並且,SpaceX 還獲得了以 600 億美元收購 Cursor 的權利,或向後者支付 100 億美元合作費用。
注意編程這個關鍵定語,後面還會 call back.
2.
最近,我看了壹條 Cursor 早期投資人、Anthropic 大噴子、T3 創始人 Theo Browne 的視頻。
本來點進去是看他噴 A 社和 SpaceX 怎麼蠅營狗苟,結果沒想到,卻看到了關於 SpaceX + Cursor 合作的,壹個既另類卻又極度合理的分析:
不說 600 億的收購,就只說 100 億的合作費——Theo 在視頻裡表示,自己認為「哪怕只是交換到 Cursor 的用戶數據,這 100 億也值回票價了。」
所以是什麼數據?如果你也去看 Theo 這條視頻,他會講得非常清楚。但為了節約時間,我們在這裡簡單概括壹下:
我們和 AI 的對話是壹來壹回的,你提出問題/需求,它給你解答;coding agent 同理,只不過返回的是代碼。
壹次高質量的對話,整個過程,包括用戶提示、模型思考、agent 規劃、輸出代碼、驗證——所有這些東西合起來,可以稱為壹個完整的 Agentic Loop——就成為了高價值的訓練數據,再喂給模型去進行強化學習,就能進壹步提高模型在實戰場景下的表現水准。
Cursor 有的,SpaceX 想要的,就是這些數據。
可這些數據從哪裡來呢?
答案很簡單:作為模型廠商,這種高質量數據的最直接來源,只能是你自己開發的 coding agent 產品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
現在你應該明白了,為什麼被 Anthropic「封號」之後,吳宇懷會在全員信裡提出開發 xAI 自己的 coding 產品和模型這件事了。這件事 xAI 在當時已經看清楚了:
沒有自己的編碼產品,就沒有高質量的強化學習數據;沒有高質量的數據,就訓練不出真正實戰能力強的 coding 模型。
雖然有點暴論,但現在我們可以點題了:模型廠商想做出來真正能打的編程模型,做自己的 coding agent 產品是唯壹的路徑。
3.
大語言模型像個水晶球,用全網的語料訓練出來,似乎能夠解答萬物,但並不代表它在所有問題上都能給出高質量的答案。
用 GitHub 上數以億計的代碼條目訓練,當然也能訓練出 coding 模型。這是「學習結果」的邏輯,也是沒問題的。畢竟編碼任務的結果是可以驗證的:代碼能不能運行,測試能否通過,結果擺在那裡。
但是,通往結果的過程,是壹個涉及多步驟決策、錯誤糾正、意圖對齊的復雜鏈條。每壹次用戶的接受、拒絕、補全、撤銷、追問、甚至當模型好幾次都搞不定或者完全搞錯時的辱罵——都是這壹鏈條上的過程信號。
強化學習有兩種監督方式,壹種叫做結果監督,只看最後是否跑通。但是結果監督會催生「獎勵黑客」的現象:模型為了能跑通可能寫出冗余、脆弱、帶邏輯漏洞的代碼,但因為測試過了,模型以為自己學對了。
而另壹種叫做過程監督,對推理路徑上的每壹步進行打分。上述這些過程信號,只有在 coding agent 運行環境裡才能誕生。GitHub 倉庫裡只有結果,哪怕是去看單獨的提交歷史,看 PR,都找不到有效的過程信號。
在缺乏有效、自主可獲得的過程信號的時候,壹些模型廠商會采用「蒸餾」的方式,這個事情大家應該已經知道了。
蒸餾的邏輯很簡單,給同樣的輸入,老師模型輸出什麼,學生模型就學著輸出什麼。但是通過蒸餾,即便可以獲取到思維鏈,得到的仍然更像是結果,而非被蒸餾的老師模型內部的概率分布。
壹旦學生在推理中偏離了老師的軌跡,哪怕壹個 token 不符合,都有可能發生偏離。
這背後是強化學習的基礎限制:策略梯度定理要求,優化樣本最好由當前正在優化的模型自己去產生。這種數據叫做 on-policy 數據。而通過蒸餾別家模型,在別人的產品裡產生的數據,來訓練自己模型,都屬於 off-policy 數據。模型當然可以從中學到東西,但學不到老師模型內部的概率分布信息。
而像 Cursor 這樣自己就是 coding agent 產品的公司,掌握著最真實、有效、高質量的訓練數據。Cursor 產品本身,就是 coding 模型在實戰環境中的最佳訓練場。
我們可以通過 Cursor 年初的「翻車」,來證明這個邏輯。
4.
APPSO 讀者應該記得,年初 Cursor 發布了 Composer 2,號稱「下壹代專用編程模型」,技術報道寫的相對保守,自報家門是新模型,也沒有提供具體的模型底座信息。
結果很快,網友就在公開代碼片段裡發現了 Kimi 的模型 ID,截圖傳遍了開發者社群,逼得 Cursor 副總裁 Lee Robinson 出面澄清:「Composer 2 確實是從開源底座出發的。最終模型大約只有 1/4 的算力來自底座,剩下 3/4 是我們自己訓出來的。」幾小時後,Cursor 聯創 Aman Sanger 也跟著發了壹條道歉:「壹開始沒提 Kimi 底座是個失誤。」
伍天後,Cursor 放出了完整的 Composer 2 技術報告,顯示底座的確是 Kimi K2.5,授權方則是 Firworks AI,大致流程是在 K2.5 上做訓練,再繼續做大規模強化學習(RL)。
但關鍵之處在於,Composer 2 的 RL 是運行在真實的 Cursor 會話當中,使用與生產部署完全相同的工具和 harness。
Cursor 將這套流程叫做「實時強化學習」(real-time RL),也即將模型的 checkpoint 直接部署到 Cursor 生產環境中,觀察用戶的響應,收集數據,聚合成獎勵信號,最快可以每 5 個小時迭代壹次模型版本,然後繼續部署到 Cursor 裡,循環往復。
最極致的案例是 Cursor 的自動化代碼補全功能 Tab,每天處理超過 4 億次請求,每當用戶輸入字符、移動光標時,模型都會預測下壹步動作,如果預測置信度高,則顯示建議,用戶按下 tab 即接受自動補全。
該功能采用的是在線強化學習,在行業內極具特色。Cursor 可以以極高的頻率(最快可達每壹個半小時到兩小時)更新 Tab 的模型能力給用戶,直接在產品內收集 on-policy 數據進行訓練。
這種高頻、接近實時的反饋回路,讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露,這種方法讓 Tab 建議的拒絕率降低 21%,接受率提高了 28%。
回到 Composer 模型本身。在事情搞清楚了之後,壹些 Kimi 員工也刪掉了之前吐槽的推文,Kimi 官方賬號發表了祝賀。
壹家估值 600 億美元(基於馬斯克給的數字),不做自己的模型基座的 coding agent 應用層公司,仍然可以通過產品自身的數據飛輪,RL 出超越基座模型的專有編程模型。
所以與其說 Cursor 翻了車,不如說這反而是 coding agent 產品重要性的絕佳例證。
Cursor 在另壹篇關於實時 RL 的文章裡寫到:「(訓練編程模型)最大的困難在於建模用戶。Composer 的生產環境裡不只有執行命令的計算機,還有監督和指導它的人。模擬計算機容易,模擬使用它的人卻很難。」
這句話,現正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價,會發現那些頭部的廠商都在發力做自己的 coding agent/編程產品。區別只在於誰離用戶更近。
我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前拾,清壹色都是有自己開發 coding agent 產品(包括 CLI、IDE、集成 coding agent 的桌面客戶端)的模型廠商。
在部分榜單上會出現少數反例,如 Meta (Muse Spark)、Minimax、DeepSeek 等,沒有開發自己的 coding agent。
不過你會發現,這些反例模型,在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例,它在 SWE-bench bash only 上分數是 70%,排名第九,在 SWE-bench Pro 上分數卻掉到了 15% 左右。
OpenRouter 的真實流量數據可以解釋這種反差:該平台 2025 年報告顯示,Claude token 消費 80% 以上用於編程和技術任務,而 DeepSeek token 消費主要集中於閒聊和角色扮演。
沒有自家 coding 產品的廠商,在壹些 coding 任務 benchmark 上能擠進頭部,但在更難的真實工程 benchmark 上,在用戶用 token 消費投票的真實流量中,都會原形畢露。
不僅是 Cursor,Anthropic 在 2025 年 11 月發的壹篇論文裡,也明確透露自己在做壹模壹樣的事情:「我們在 Anthropic 自家的真實生產編程環境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數據,反哺給 Claude 模型用來訓練。
5.
在 AI 的演進歷程中,生產要素的定義發生了深刻的位移。傳統叁大核心要素——算力、研究、訓練數據,雖然在總量上持續增長,但在結構上已經出現了嚴重的失衡。
今天的各大 AI 巨頭顯著提高了在算力上的資本支出 (CapEx),讓算力基建成為了當前輿論的主旋律。但實際上,特別是在編程范疇內,隨著 GitHub 倉庫、StackOverflow 等互聯網公開代碼數據被基模廠商「竭澤而漁」式地利用,模型在代碼生成與邏輯推理上的邊界開始逐漸顯現。
這也是為什麼,行業共識正在逐漸轉向壹個冉冉升起的新戰略高地:對於任何希望掌握頂級代碼能力的模型廠商而言,建立自有的 coding agent 產品早已不再是可選的商業路線,而是確保底層模型可以持續進化的核心生命線。
正如前面 APPSO 論證的那樣,單純學習公開數據等於只學習成功者的結局,卻無法了解成功的路徑,這絕對不是正確的成功學應該有的樣子。在真實的編程環境中,知道發生了什麼錯誤、怎樣發生的、如何正確地理解和高效地實踐需求等等——了解正確過程的價值,遠超於得到正確結果本身。
只有擁有自己的編碼產品,模型廠商才能獲取高質量的「過程監督」信號,從而在編碼/推理能力的下壹階段競爭中,確保自己仍有技術護城河——
否則就不得不像 SpaceXAI 那樣,花錢去跟 coding agent 產品公司去合作。然而並不是所有模型廠商都跟馬斯克壹樣有錢,以及 2026 年開始的巨頭勢力劃分、結盟與領地的爭斗會變得更加激烈,當壹家缺乏自主 coding 產品的模型廠商終於回過味來的時候,恐怕已經沒有足夠的合作伙伴可以挑選,合作的價格也將水漲船高。
美國模型巨頭的情況大家普遍比較熟悉了,在此不贅述。APPSO 也注意到,國內的主流模型廠商和 AI 巨頭當中,絕大部分都已經在 coding agent 產品上有所布局。
國內巨頭公司主要以原生 AI IDE 或 IDE 插件的思路在做:字節跳動去年很早就布局了 TRAE、阿裡巴巴的 Qoder、騰訊的 CodeBuddy、百度的文心快碼 Comate 等。
AI 小龍公司中,月之暗面是最早開發獨立 coding agent 產品的公司,主要以 CLI 界面的 Kimi Code 為主——不過 Kimi 此前有透露過,在原生編程產品這件事上,CLI 不會是終局。
另壹種實現思路是模型廠商自行提供 API 服務、Coding Plan。這樣,不論用戶使用何種 AI 開發環境,模型廠商都可以通過服務器端的 API 記錄來獲取最大程度接近於原生 coding 產品的過程數據。
但這也只是接近,並非完全相同。核心在於,服務器端 API 的請求-響應日志,與深度嵌入的產品交互軌跡相比仍有很大差距。
自建產品的廠商(例如 Cursor、Claude 桌面端、Codex)擁有最直接的顯式反饋信號,而 API 側是相對模糊的隱式推斷。簡單來說,API 側能看到用戶請求和響應,但用戶最後是否采納了這段代碼、代碼能否跑通、引發了什麼樣的 bug,API 側對此是壹無所知的。他們無法了解到用戶最終行為這壹關鍵的標簽,從而無法實現最高質量的強化學習。
形而上來講,語言即世界,代碼即方案。代碼可以表達這個世界上絕大多數的任務,代碼也會成為頭部的放大器,讓最頂尖的人才放大數倍的生產力。
只有最頂尖的 coding 模型才配得上最頂尖的人才。如果領先的模型廠商不重視 coding,勢必將會掉出第壹梯隊。
當然,事實上每家模型廠商都不會不重視 coding——而是說,在新的范式下,那些沒有自主可控的原生 coding agent 產品,極有可能逐漸落後於有產品的廠商。
就在前幾天,MiniMax 也發布了桌面客戶端產品的重大更新:帶有全新多 agent 編排架構的 Mavis 功能,並且也讓客戶端顯著改善了對 coding 任務的支持。
此前 MiniMax 只是推出了桌面端,但沒有加入原生 coding 和 agent 功能。
緊接著,在 5 月 15 日,阿裡巴巴正式發布了 Qoder 1.0——這個產品從 IDE 的形態正式升級為壹個完整的 Agent 產品(阿裡的官方叫法是智能體自主開發工作台)。
與此同時,xAI 的 Grok Build CLI,也終於正式推出了。
沒錯,就是 xAI 年初被 Anthropic 和 Cursor 封號之後,他們自己搗鼓出來的那個 coding agent.
這不,又多了好幾個現成的案例。
看來,大家都認為 Cursor、Codex 和 Claude 桌面端走在正確的道路上。
6.
把話題從 coding 擴展到 agent 本身,情況也是壹樣的。
編碼任務的軌跡數據,在公開語料中確實還是能找到壹些的(比如 GitHub 的提交記錄/PR,盡管質量並不高)。但是 agent 任務的軌跡數據,包括但不限於移動和點擊鼠標、操控觸屏、填寫輸入框等,卻無法在公開語料中找到。
所以我們會看到,即使在 agent 操作的最小實現路徑——瀏覽器插件上,即便是這麼個看起來壹點都不高端的東西,幾乎每家模型廠商都會做自己的。
OpenAI 早在 2025 年 1 月就做了 Operator——與其說它是壹個「AI 自動操作瀏覽器」的產品,不如說本質上就是壹個大規模的數據收集裝置。每壹位試用 Operator 的用戶,都在免費為 OpenAI 提供 on-policy 數據。
後續 OpenAI 還衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不聲不響地也做了壹個叫做 WebBridge 的項目,其實就是壹個瀏覽器插件。
即便是在過去兩年裡動作最克制的中國模型巨頭深度求索,也在最近開始展露出對 Agent 的興趣。
CEO 梁文鋒此前接受采訪時曾經提到這樣的觀點:數學和代碼是AGI天然的試驗場,有點像圍棋,是壹個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能。
這句話的潛台詞,是 DeepSeek 壹直把 coding、Agent 當研究試驗場,而非商業化方向。
但是在今年 3 月,DeepSeek 壹次性放出了拾幾個 Agent 相關崗位,包括首次出現的模型策略產品經理(Agent 方向)等。當時的 JD 職責涵蓋「主導 Agent 評測體系以及訓練數據方案的設計」,要求中包括「深度使用 Claude Code、Manus」等產品。
APPSO 注意到,近期深度求索發布了 Agent 產品經理、Harness 產品經理等職位招聘信息——很顯然,DeepSeek 要做獨立、原生的 Coding/Agent 產品了。
此前資料顯示,DeepSeek V3.2 的訓練過程中引入了近兩千個合成的 Agent 訓練環境和八萬多條復雜指令。但是看起來,靠合成的訓練數據只能帶 DeepSeek 走到這裡了,剩下的是合成不出來的部分:真實用戶在真實環境裡的真實成功和失敗,必須靠自家的 agent 產品才能拿到。
DeepSeek 以壹種極度克制的方式做了叁年模型以及模型產品(直到上個月才終於在官網加入了多模態能力)。但是在今天來看,在編碼類任務上,DeepSeek 拿 SOTA 越來越難了,即便此前拿到也會在不久後被超越。
當助理依靠研究的路徑支撐不住飛輪的時候,DeepSeek 終於行動了。
7.
最後,我們回到開篇的故事。
根據 The Information 報道援引知情人士報道,在接受馬斯克 600 億收購/100 億美元合作的同時,Cursor 表示不會與 xAI 合作開發新的模型,而是仍將聚焦於優化自己的 Composer 模型。
這意味著,即便被馬斯克買通甚至收購,Cursor 仍然要保留自己數據飛輪的主體性。
數據歸屬的本身,是最關鍵的隱藏博弈點。
當所有頂級模型廠商都做了自己的產品,所有頂級產品也都開始訓練自己的模型,「模型公司」和「產品公司」的本就不太清楚的界限,似乎越來越不存在了……
這場博弈也才剛剛開始。
文|杜晨
參考資料:
Theo - t3.gg: www.youtube.com/watch?v=3pkz-Ie_k_c
Composer 2 技術報告:cursor.com/cn/blog/composer-2-technical-report
Anthropic 論文:arxiv.org/abs/2511.18397
結果監督 vs 過程監督: www.emergentmind.com/topics/process-vs-outcome-supervision
強化學習的信號誤差:https://openreview.net/pdf?id=TDfrN1TbGH
關於自建 or 購買過程數據的討論:https://www.reddit.com/r/AI_Agents/comments/1snc116/the_overlooked_trend_of_building_custom_ai_agents/
部分圖片為 AI 生成
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: |
| 延伸閱讀 | 更多... |
推薦:



