刘润:下一个万亿机会,正在出现(图
如何做到呢?答案之一,或许就是:强化学习。


9年后,爱因斯坦级别的AI要来了?
OpenAI的Dan Roberts说,或许:9年后,模型就能独立发现广义相对论级别的成果。
9年后。爱因斯坦级别的AI。这太夸张了。
凭什么这么说?
这要从ChatGPT发布的几个模型说起。从4o模型,到o1,再到o3。他们的推理能力,表现得越来越好。o3,能在1分钟的时间内,完成Dan Roberts要花3小时才能计算出来的物理问题。
为什么会这样?
Dan Roberts认为,答案可能是:强化学习。
如果说预训练,是让AI模型通过“提前预习”,学到了海量知识,那么强化学习,就是让AI在不断的实践、试错和获得反馈中,自己摸索出解决问题的方法。4o模型,几乎全部是预训练计算。o1里,有了那么一些强化学习计算。o3里,强化计算的占比进一步增加了。

所以未来,Open AI,打算继续加码强化学习。
他们相信,强化学习,是让AI从“博学的学生”,进化为能够独立思考、主动探索的“研究员”的关键路径。
以前,大家觉得强化学习,只是预训练这个大蛋糕上的一颗小樱桃,但OpenAI,打算用“巨大的强化学习樱桃”,压垮整个蛋糕。

[物价飞涨的时候 这样省钱购物很爽]
这条新闻还没有人评论喔,等着您的高见呢


9年后,爱因斯坦级别的AI要来了?
OpenAI的Dan Roberts说,或许:9年后,模型就能独立发现广义相对论级别的成果。
9年后。爱因斯坦级别的AI。这太夸张了。
凭什么这么说?
这要从ChatGPT发布的几个模型说起。从4o模型,到o1,再到o3。他们的推理能力,表现得越来越好。o3,能在1分钟的时间内,完成Dan Roberts要花3小时才能计算出来的物理问题。
为什么会这样?
Dan Roberts认为,答案可能是:强化学习。
如果说预训练,是让AI模型通过“提前预习”,学到了海量知识,那么强化学习,就是让AI在不断的实践、试错和获得反馈中,自己摸索出解决问题的方法。4o模型,几乎全部是预训练计算。o1里,有了那么一些强化学习计算。o3里,强化计算的占比进一步增加了。

所以未来,Open AI,打算继续加码强化学习。
他们相信,强化学习,是让AI从“博学的学生”,进化为能够独立思考、主动探索的“研究员”的关键路径。
以前,大家觉得强化学习,只是预训练这个大蛋糕上的一颗小樱桃,但OpenAI,打算用“巨大的强化学习樱桃”,压垮整个蛋糕。

[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
推荐:
刘润:下一个万亿机会,正在出现(图