Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_6cf5dae0ad9c3c42647b820e3bcb3e36, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34

Warning: mb_substr(): Unknown encoding "_CHARSET2" in /var/www/vhosts/vandaily.com/httpdocs/includes/classes/news_core.php on line 1908

Warning: mb_strlen(): Unknown encoding "_CHARSET2" in /var/www/vhosts/vandaily.com/httpdocs/includes/classes/news_core.php on line 1909

Warning: mb_strrpos(): Unknown encoding "_CHARSET2" in /var/www/vhosts/vandaily.com/httpdocs/includes/classes/news_core.php on line 1911

Warning: mb_strrpos(): Unknown encoding "_CHARSET2" in /var/www/vhosts/vandaily.com/httpdocs/includes/classes/news_core.php on line 1914
Deepseek是真正的创新还是穿着AI皇帝的新衣? | 温哥华地产中心
   

[皇帝] Deepseek是真正的创新还是穿着AI皇帝的新衣?

DeepSeek-R1 采用 “SFT + RL” 的混合训练策略,既保持了语言表达的自然流畅,又强化了推理能力。效果非常好,Performance比肩GPT-01的模型了,注意这些Benchmark都是要通过第三方验证,并不是DS自己说了算的:




其次是DS在训练与数据策略上有创新。

DS提出了新的训练管道: 该管道包含两个 RL stage,用于发现改进的推理模式并对⻬人类的偏好,同时还包含两个 SFT stage,作为推理模型与非推理能力的种子。

DS在训练的时候强调质量优先, 用的是高质量、垂直领域的数据(如数学题解、代码仓库),而不是单纯追求数据规模。还有就是高性价比的训练:通过架构优化和数据效率提升,仅用1/8的训练算力即达到GPT-3.5的性能水平。

第三就是DS提供了一些新的强化学习(RL)的算法。

DS的第五篇论文《通过强化学习激发大语言模型的推理能力》里提到了这么几种算法:

1. 组相对策略优化(GRPO): 为节省 RL 的训练成本,DS采用分组的方式,这个有点像在医院里挂专门的门诊,而不是全部都查一遍。为了避免传统强化学习中使用与策略模型相同规模的评论模型(Critic Model),DS通过分组评分来估计基准。

2.奖励机制(rewarding modeling)。奖励是训练信号的来源,决定了强化学习(RL)的优化方向。DS主要用到两类奖励:准确性奖励和格式奖励。

3. 在训练 DeepSeek-R1-Zero 时,DS设计了一个简单的模板,首先生成推理过程, 然后再生成最终答案。DS有意将约束限制在结构格式上,避免引入任何偏⻅,比如要求模型进行反思性推理,确保准确观察模型在强化学习过程中的自然发展。

这篇paper还提到了模型自我进化过程中一个引人注目的地方,就是随着测试时间和计算的增加,模型会自然涌现出复杂行为和大量强大且有趣的推理行为。例如,模型会反思,并重新评估之前的步骤,还会探索解决问题的替代方法。还会出现顿悟时刻,这些行为并非明确编程而成,而是模型与强化学习环境交互的自然产物。这一点其实是有些吓人的,因为和人类的思考过程如此相似。


另外DS还探索了从 DeepSeek-R1 到更小密集模型的蒸馏过程,并且开源提供了六个蒸馏模型给公众用,任何人都可以去DS的官网下载这些小模型,装到自己的PC上用,这个做法也是非常大气的。

我们知道AI的三大要素是算法,算力和数据。DS在算法上是有很多创新的,在算力上,也通过优化降低了对硬件的需求,极大地降低了对高端芯片的要求,这些都值得称道的。有些人对DS自称的600百万训练成本表示怀疑,我的一位业内朋友认为500百万到一千万是可信的,当我追问为什么,他表示还不能透露。

DS唯一有些不足的是数据不够,容易踏空,但是数据这块也是灰色地带,耐人寻味的是chatGPT自己的数据来源也不完全合法,Sora几乎肯定是从youtube里获取了数据,而纽约时报也在告OpenAI盗用了他们的数据。并且,DS是开源的,它的API也是以极低廉的价格提供给用户。但OpenAI虽然自称Open,却是闭源的,而且,下载它的最高版本需要200美元,调用API更是昂贵。所以,不难理解为什么DS 现在跃居为App store里最受欢迎的APP。相信当更多人使用DS,就会提供更多数据,DS将来对OpenAI数据的依赖也会减少。

当然,DS的短板也是非常明显的,因为众所周知的原因,许多社科历史问题在DS上是没有答案的,这个时候,DS就会要你换一个话题。

因为诸如汉芯之类的事件,许多人对国货表示质疑,这都可以理解,但这次DS的确是做出了不少创新,尤其是开源的态度让人侧目,5篇技术论文也是非常坦诚透明地公布自己的方法和创新,的确赢得了业内人士诸多好评和尊重。

[物价飞涨的时候 这样省钱购物很爽]
这条新闻还没有人评论喔,等着您的高见呢
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
     延伸阅读 More...
    一箭斩首"猪头皇帝" 江苏男发视频帐号被封 血腥诅咒?除他之外,东晋其余皇帝全部绝嗣
    逐玉:皇帝设局陷害忠臣,谢征身中迷魂催情香与樊长玉圆房! "皇帝在哪下罪己诏?"郑丽文提问犀利
    波斯皇帝去哪了?聊聊赢麻了的故事 中国史上唯一"选举"产生的皇帝(图
    她,成中国第一个休"皇帝"的女人 事故频发背后的"系统性合谋"与"避责狂欢":皇帝的新装
    苏联档案揭真相 他骗了康雍乾三代皇帝 任剑涛最新火爆演讲:皇帝制度为何卷土重来
     推荐:

    comments

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    Security Code *:  Please input the number which is shown on the right picture
    The Captcha image  (Please input the number which is shown on the right picture)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站