Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_197dc359db95b24962f455960a4b337f, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向 | 溫哥華地產中心
   

[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向

強化學習有兩種監督方式,壹種叫做結果監督,只看最後是否跑通。但是結果監督會催生「獎勵黑客」的現象:模型為了能跑通可能寫出冗余、脆弱、帶邏輯漏洞的代碼,但因為測試過了,模型以為自己學對了。


而另壹種叫做過程監督,對推理路徑上的每壹步進行打分。上述這些過程信號,只有在 coding agent 運行環境裡才能誕生。GitHub 倉庫裡只有結果,哪怕是去看單獨的提交歷史,看 PR,都找不到有效的過程信號。

在缺乏有效、自主可獲得的過程信號的時候,壹些模型廠商會采用「蒸餾」的方式,這個事情大家應該已經知道了。

蒸餾的邏輯很簡單,給同樣的輸入,老師模型輸出什麼,學生模型就學著輸出什麼。但是通過蒸餾,即便可以獲取到思維鏈,得到的仍然更像是結果,而非被蒸餾的老師模型內部的概率分布。

壹旦學生在推理中偏離了老師的軌跡,哪怕壹個 token 不符合,都有可能發生偏離。



這背後是強化學習的基礎限制:策略梯度定理要求,優化樣本最好由當前正在優化的模型自己去產生。這種數據叫做 on-policy 數據。而通過蒸餾別家模型,在別人的產品裡產生的數據,來訓練自己模型,都屬於 off-policy 數據。模型當然可以從中學到東西,但學不到老師模型內部的概率分布信息。

而像 Cursor 這樣自己就是 coding agent 產品的公司,掌握著最真實、有效、高質量的訓練數據。Cursor 產品本身,就是 coding 模型在實戰環境中的最佳訓練場。

我們可以通過 Cursor 年初的「翻車」,來證明這個邏輯。

4.


APPSO 讀者應該記得,年初 Cursor 發布了 Composer 2,號稱「下壹代專用編程模型」,技術報道寫的相對保守,自報家門是新模型,也沒有提供具體的模型底座信息。



結果很快,網友就在公開代碼片段裡發現了 Kimi 的模型 ID,截圖傳遍了開發者社群,逼得 Cursor 副總裁 Lee Robinson 出面澄清:「Composer 2 確實是從開源底座出發的。最終模型大約只有 1/4 的算力來自底座,剩下 3/4 是我們自己訓出來的。」幾小時後,Cursor 聯創 Aman Sanger 也跟著發了壹條道歉:「壹開始沒提 Kimi 底座是個失誤。」



[物價飛漲的時候 這樣省錢購物很爽]
還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀 更多...
    馬斯克起訴OpenAI案敗訴,陪審團裁定起訴超時效 馬斯克對OpenAI和奧特曼所有指控被駁回:時效已過!
    法官兩次訓斥馬斯克...巨頭世紀庭審大混戰 川習會國宴坐馬斯克和庫克之間 她出圈了
    史上最大IPO要來了 馬斯克:壹股不賣 埃隆馬斯克傳:極致的天才都是與痛苦共生的偏執者
    馬斯克對雷軍"愛答不理"?國宴合照讓多少人破防了 黃仁勳馬斯克"空手而回"?美中回到"穩定對抗"時代?
    馬斯克:我為什麼不能被SpaceX解雇.... 馬斯克不會出售所持SpaceX公司股份
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站