[皇帝] Deepseek是真正的创新还是穿着AI皇帝的新衣?
DeepSeek-R1 采用 “SFT + RL” 的混合训练策略,既保持了语言表达的自然流畅,又强化了推理能力。效果非常好,Performance比肩GPT-01的模型了,注意这些Benchmark都是要通过第三方验证,并不是DS自己说了算的:

其次是DS在训练与数据策略上有创新。
DS提出了新的训练管道: 该管道包含两个 RL stage,用于发现改进的推理模式并对⻬人类的偏好,同时还包含两个 SFT stage,作为推理模型与非推理能力的种子。
DS在训练的时候强调质量优先, 用的是高质量、垂直领域的数据(如数学题解、代码仓库),而不是单纯追求数据规模。还有就是高性价比的训练:通过架构优化和数据效率提升,仅用1/8的训练算力即达到GPT-3.5的性能水平。
第三就是DS提供了一些新的强化学习(RL)的算法。
DS的第五篇论文《通过强化学习激发大语言模型的推理能力》里提到了这么几种算法:
1. 组相对策略优化(GRPO): 为节省 RL 的训练成本,DS采用分组的方式,这个有点像在医院里挂专门的门诊,而不是全部都查一遍。为了避免传统强化学习中使用与策略模型相同规模的评论模型(Critic Model),DS通过分组评分来估计基准。
2.奖励机制(rewarding modeling)。奖励是训练信号的来源,决定了强化学习(RL)的优化方向。DS主要用到两类奖励:准确性奖励和格式奖励。
3. 在训练 DeepSeek-R1-Zero 时,DS设计了一个简单的模板,首先生成推理过程, 然后再生成最终答案。DS有意将约束限制在结构格式上,避免引入任何偏⻅,比如要求模型进行反思性推理,确保准确观察模型在强化学习过程中的自然发展。
这篇paper还提到了模型自我进化过程中一个引人注目的地方,就是随着测试时间和计算的增加,模型会自然涌现出复杂行为和大量强大且有趣的推理行为。例如,模型会反思,并重新评估之前的步骤,还会探索解决问题的替代方法。还会出现顿悟时刻,这些行为并非明确编程而成,而是模型与强化学习环境交互的自然产物。这一点其实是有些吓人的,因为和人类的思考过程如此相似。
另外DS还探索了从 DeepSeek-R1 到更小密集模型的蒸馏过程,并且开源提供了六个蒸馏模型给公众用,任何人都可以去DS的官网下载这些小模型,装到自己的PC上用,这个做法也是非常大气的。
我们知道AI的三大要素是算法,算力和数据。DS在算法上是有很多创新的,在算力上,也通过优化降低了对硬件的需求,极大地降低了对高端芯片的要求,这些都值得称道的。有些人对DS自称的600百万训练成本表示怀疑,我的一位业内朋友认为500百万到一千万是可信的,当我追问为什么,他表示还不能透露。
DS唯一有些不足的是数据不够,容易踏空,但是数据这块也是灰色地带,耐人寻味的是chatGPT自己的数据来源也不完全合法,Sora几乎肯定是从youtube里获取了数据,而纽约时报也在告OpenAI盗用了他们的数据。并且,DS是开源的,它的API也是以极低廉的价格提供给用户。但OpenAI虽然自称Open,却是闭源的,而且,下载它的最高版本需要200美元,调用API更是昂贵。所以,不难理解为什么DS 现在跃居为App store里最受欢迎的APP。相信当更多人使用DS,就会提供更多数据,DS将来对OpenAI数据的依赖也会减少。
当然,DS的短板也是非常明显的,因为众所周知的原因,许多社科历史问题在DS上是没有答案的,这个时候,DS就会要你换一个话题。
因为诸如汉芯之类的事件,许多人对国货表示质疑,这都可以理解,但这次DS的确是做出了不少创新,尤其是开源的态度让人侧目,5篇技术论文也是非常坦诚透明地公布自己的方法和创新,的确赢得了业内人士诸多好评和尊重。
[物价飞涨的时候 这样省钱购物很爽]
这条新闻还没有人评论喔,等着您的高见呢

其次是DS在训练与数据策略上有创新。
DS提出了新的训练管道: 该管道包含两个 RL stage,用于发现改进的推理模式并对⻬人类的偏好,同时还包含两个 SFT stage,作为推理模型与非推理能力的种子。
DS在训练的时候强调质量优先, 用的是高质量、垂直领域的数据(如数学题解、代码仓库),而不是单纯追求数据规模。还有就是高性价比的训练:通过架构优化和数据效率提升,仅用1/8的训练算力即达到GPT-3.5的性能水平。
第三就是DS提供了一些新的强化学习(RL)的算法。
DS的第五篇论文《通过强化学习激发大语言模型的推理能力》里提到了这么几种算法:
1. 组相对策略优化(GRPO): 为节省 RL 的训练成本,DS采用分组的方式,这个有点像在医院里挂专门的门诊,而不是全部都查一遍。为了避免传统强化学习中使用与策略模型相同规模的评论模型(Critic Model),DS通过分组评分来估计基准。
2.奖励机制(rewarding modeling)。奖励是训练信号的来源,决定了强化学习(RL)的优化方向。DS主要用到两类奖励:准确性奖励和格式奖励。
3. 在训练 DeepSeek-R1-Zero 时,DS设计了一个简单的模板,首先生成推理过程, 然后再生成最终答案。DS有意将约束限制在结构格式上,避免引入任何偏⻅,比如要求模型进行反思性推理,确保准确观察模型在强化学习过程中的自然发展。
这篇paper还提到了模型自我进化过程中一个引人注目的地方,就是随着测试时间和计算的增加,模型会自然涌现出复杂行为和大量强大且有趣的推理行为。例如,模型会反思,并重新评估之前的步骤,还会探索解决问题的替代方法。还会出现顿悟时刻,这些行为并非明确编程而成,而是模型与强化学习环境交互的自然产物。这一点其实是有些吓人的,因为和人类的思考过程如此相似。
另外DS还探索了从 DeepSeek-R1 到更小密集模型的蒸馏过程,并且开源提供了六个蒸馏模型给公众用,任何人都可以去DS的官网下载这些小模型,装到自己的PC上用,这个做法也是非常大气的。
我们知道AI的三大要素是算法,算力和数据。DS在算法上是有很多创新的,在算力上,也通过优化降低了对硬件的需求,极大地降低了对高端芯片的要求,这些都值得称道的。有些人对DS自称的600百万训练成本表示怀疑,我的一位业内朋友认为500百万到一千万是可信的,当我追问为什么,他表示还不能透露。
DS唯一有些不足的是数据不够,容易踏空,但是数据这块也是灰色地带,耐人寻味的是chatGPT自己的数据来源也不完全合法,Sora几乎肯定是从youtube里获取了数据,而纽约时报也在告OpenAI盗用了他们的数据。并且,DS是开源的,它的API也是以极低廉的价格提供给用户。但OpenAI虽然自称Open,却是闭源的,而且,下载它的最高版本需要200美元,调用API更是昂贵。所以,不难理解为什么DS 现在跃居为App store里最受欢迎的APP。相信当更多人使用DS,就会提供更多数据,DS将来对OpenAI数据的依赖也会减少。
当然,DS的短板也是非常明显的,因为众所周知的原因,许多社科历史问题在DS上是没有答案的,这个时候,DS就会要你换一个话题。
因为诸如汉芯之类的事件,许多人对国货表示质疑,这都可以理解,但这次DS的确是做出了不少创新,尤其是开源的态度让人侧目,5篇技术论文也是非常坦诚透明地公布自己的方法和创新,的确赢得了业内人士诸多好评和尊重。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| Note: | _VIEW_NEWS_FULL |
| 延伸阅读 | More... |
推荐:



