Deepseek是真正的创新还是穿着AI皇帝的新衣?

[皇帝] Deepseek是真正的创新还是穿着AI皇帝的新衣?

DeepSeek-R1 采用 “SFT + RL” 的混合训练策略，既保持了语言表达的自然流畅，又强化了推理能力。效果非常好，Performance比肩GPT-01的模型了，注意这些Benchmark都是要通过第三方验证，并不是DS自己说了算的：

其次是DS在训练与数据策略上有创新。

DS提出了新的训练管道: 该管道包含两个 RL stage，用于发现改进的推理模式并对⻬人类的偏好，同时还包含两个 SFT stage，作为推理模型与非推理能力的种子。

DS在训练的时候强调质量优先，用的是高质量、垂直领域的数据（如数学题解、代码仓库），而不是单纯追求数据规模。还有就是高性价比的训练：通过架构优化和数据效率提升，仅用1/8的训练算力即达到GPT-3.5的性能水平。

第三就是DS提供了一些新的强化学习（RL）的算法。

DS的第五篇论文《通过强化学习激发大语言模型的推理能力》里提到了这么几种算法：

1. 组相对策略优化(GRPO): 为节省 RL 的训练成本，DS采用分组的方式，这个有点像在医院里挂专门的门诊，而不是全部都查一遍。为了避免传统强化学习中使用与策略模型相同规模的评论模型(Critic Model)，DS通过分组评分来估计基准。

2.奖励机制（rewarding modeling）。奖励是训练信号的来源，决定了强化学习(RL)的优化方向。DS主要用到两类奖励:准确性奖励和格式奖励。

3. 在训练 DeepSeek-R1-Zero 时，DS设计了一个简单的模板，首先生成推理过程，然后再生成最终答案。DS有意将约束限制在结构格式上，避免引入任何偏⻅，比如要求模型进行反思性推理，确保准确观察模型在强化学习过程中的自然发展。

这篇paper还提到了模型自我进化过程中一个引人注目的地方，就是随着测试时间和计算的增加，模型会自然涌现出复杂行为和大量强大且有趣的推理行为。例如，模型会反思，并重新评估之前的步骤，还会探索解决问题的替代方法。还会出现顿悟时刻，这些行为并非明确编程而成，而是模型与强化学习环境交互的自然产物。这一点其实是有些吓人的，因为和人类的思考过程如此相似。

另外DS还探索了从 DeepSeek-R1 到更小密集模型的蒸馏过程，并且开源提供了六个蒸馏模型给公众用，任何人都可以去DS的官网下载这些小模型，装到自己的PC上用，这个做法也是非常大气的。

我们知道AI的三大要素是算法，算力和数据。DS在算法上是有很多创新的，在算力上，也通过优化降低了对硬件的需求，极大地降低了对高端芯片的要求，这些都值得称道的。有些人对DS自称的600百万训练成本表示怀疑，我的一位业内朋友认为500百万到一千万是可信的，当我追问为什么，他表示还不能透露。

DS唯一有些不足的是数据不够，容易踏空，但是数据这块也是灰色地带，耐人寻味的是chatGPT自己的数据来源也不完全合法，Sora几乎肯定是从youtube里获取了数据，而纽约时报也在告OpenAI盗用了他们的数据。并且，DS是开源的，它的API也是以极低廉的价格提供给用户。但OpenAI虽然自称Open，却是闭源的，而且，下载它的最高版本需要200美元，调用API更是昂贵。所以，不难理解为什么DS 现在跃居为App store里最受欢迎的APP。相信当更多人使用DS，就会提供更多数据，DS将来对OpenAI数据的依赖也会减少。

当然，DS的短板也是非常明显的，因为众所周知的原因，许多社科历史问题在DS上是没有答案的，这个时候，DS就会要你换一个话题。

因为诸如汉芯之类的事件，许多人对国货表示质疑，这都可以理解，但这次DS的确是做出了不少创新，尤其是开源的态度让人侧目，5篇技术论文也是非常坦诚透明地公布自己的方法和创新，的确赢得了业内人士诸多好评和尊重。

[物价飞涨的时候这样省钱购物很爽] 这条新闻还没有人评论喔，等着您的高见呢

分享:

Prev Page 123 Next Page

Note:

新闻来源于其它媒体，内容不代表本站立场！

_VIEW_NEWS_FULL

comments

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

[皇帝] Deepseek是真正的创新还是穿着AI皇帝的新衣?

comments