Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_197dc359db95b24962f455960a4b337f, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
马斯克 OpenAI Anthropic全盯上同一件事 AI巨头集体转向 | 温哥华地产中心
   

[马斯克] 马斯克 OpenAI Anthropic全盯上同一件事 AI巨头集体转向

强化学习有两种监督方式,一种叫做结果监督,只看最后是否跑通。但是结果监督会催生「奖励黑客」的现象:模型为了能跑通可能写出冗余、脆弱、带逻辑漏洞的代码,但因为测试过了,模型以为自己学对了。


而另一种叫做过程监督,对推理路径上的每一步进行打分。上述这些过程信号,只有在 coding agent 运行环境里才能诞生。GitHub 仓库里只有结果,哪怕是去看单独的提交历史,看 PR,都找不到有效的过程信号。

在缺乏有效、自主可获得的过程信号的时候,一些模型厂商会采用「蒸馏」的方式,这个事情大家应该已经知道了。

蒸馏的逻辑很简单,给同样的输入,老师模型输出什么,学生模型就学着输出什么。但是通过蒸馏,即便可以获取到思维链,得到的仍然更像是结果,而非被蒸馏的老师模型内部的概率分布。

一旦学生在推理中偏离了老师的轨迹,哪怕一个 token 不符合,都有可能发生偏离。



这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化的模型自己去产生。这种数据叫做 on-policy 数据。而通过蒸馏别家模型,在别人的产品里产生的数据,来训练自己模型,都属于 off-policy 数据。模型当然可以从中学到东西,但学不到老师模型内部的概率分布信息。

而像 Cursor 这样自己就是 coding agent 产品的公司,掌握着最真实、有效、高质量的训练数据。Cursor 产品本身,就是 coding 模型在实战环境中的最佳训练场。

我们可以通过 Cursor 年初的「翻车」,来证明这个逻辑。

4.


APPSO 读者应该记得,年初 Cursor 发布了 Composer 2,号称「下一代专用编程模型」,技术报道写的相对保守,自报家门是新模型,也没有提供具体的模型底座信息。



结果很快,网友就在公开代码片段里发现了 Kimi 的模型 ID,截图传遍了开发者社群,逼得 Cursor 副总裁 Lee Robinson 出面澄清:「Composer 2 确实是从开源底座出发的。最终模型大约只有 1/4 的算力来自底座,剩下 3/4 是我们自己训出来的。」几小时后,Cursor 联创 Aman Sanger 也跟着发了一条道歉:「一开始没提 Kimi 底座是个失误。」



[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读 更多...
    马斯克起诉OpenAI案败诉,陪审团裁定起诉超时效 马斯克对OpenAI和奥特曼所有指控被驳回:时效已过!
    法官两次训斥马斯克...巨头世纪庭审大混战 川习会国宴坐马斯克和库克之间 她出圈了
    史上最大IPO要来了 马斯克:一股不卖 埃隆马斯克传:极致的天才都是与痛苦共生的偏执者
    马斯克对雷军"爱答不理"?国宴合照让多少人破防了 黄仁勋马斯克"空手而回"?美中回到"稳定对抗"时代?
    马斯克:我为什么不能被SpaceX解雇.... 马斯克不会出售所持SpaceX公司股份
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站