馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向

[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向

2026-05-18 | 來源: 愛范兒 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

強化學習有兩種監督方式，壹種叫做結果監督，只看最後是否跑通。但是結果監督會催生「獎勵黑客」的現象：模型為了能跑通可能寫出冗余、脆弱、帶邏輯漏洞的代碼，但因為測試過了，模型以為自己學對了。

而另壹種叫做過程監督，對推理路徑上的每壹步進行打分。上述這些過程信號，只有在 coding agent 運行環境裡才能誕生。GitHub 倉庫裡只有結果，哪怕是去看單獨的提交歷史，看 PR，都找不到有效的過程信號。

在缺乏有效、自主可獲得的過程信號的時候，壹些模型廠商會采用「蒸餾」的方式，這個事情大家應該已經知道了。

蒸餾的邏輯很簡單，給同樣的輸入，老師模型輸出什麼，學生模型就學著輸出什麼。但是通過蒸餾，即便可以獲取到思維鏈，得到的仍然更像是結果，而非被蒸餾的老師模型內部的概率分布。

壹旦學生在推理中偏離了老師的軌跡，哪怕壹個 token 不符合，都有可能發生偏離。

這背後是強化學習的基礎限制：策略梯度定理要求，優化樣本最好由當前正在優化的模型自己去產生。這種數據叫做 on-policy 數據。而通過蒸餾別家模型，在別人的產品裡產生的數據，來訓練自己模型，都屬於 off-policy 數據。模型當然可以從中學到東西，但學不到老師模型內部的概率分布信息。

而像 Cursor 這樣自己就是 coding agent 產品的公司，掌握著最真實、有效、高質量的訓練數據。Cursor 產品本身，就是 coding 模型在實戰環境中的最佳訓練場。

我們可以通過 Cursor 年初的「翻車」，來證明這個邏輯。

4.

APPSO 讀者應該記得，年初 Cursor 發布了 Composer 2，號稱「下壹代專用編程模型」，技術報道寫的相對保守，自報家門是新模型，也沒有提供具體的模型底座信息。

結果很快，網友就在公開代碼片段裡發現了 Kimi 的模型 ID，截圖傳遍了開發者社群，逼得 Cursor 副總裁 Lee Robinson 出面澄清：「Composer 2 確實是從開源底座出發的。最終模型大約只有 1/4 的算力來自底座，剩下 3/4 是我們自己訓出來的。」幾小時後，Cursor 聯創 Aman Sanger 也跟著發了壹條道歉：「壹開始沒提 Kimi 底座是個失誤。」

[物價飛漲的時候這樣省錢購物很爽] 還沒人說話啊，我想來說幾句

分享:

上壹頁 1 234 5 6 ...8 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向

意見