Nature发文:DeepSeek让科学家兴奋不已

在基准测试中, DeepSeek-R1 在加州大学伯克利分校研究人员编写的数学问题 MATH-500 中取得了 97.3% 的成绩,并在一项名为 Codeforces 的编程竞赛中击败了 96.3% 的人类参与者。这些能力与 o1 不相上下;o3 未被纳入比较范围(参见“AI 竞争对手”)。


很难判断基准测试是否反映了模型真正的推理或概括能力,还是仅仅反映了其通过此类测试的能力。但剑桥大学计算机科学家 Marco Dos Santos 表示,由于 R1 是开放的,研究人员可以访问其思路。“这使得模型的推理过程具有更好的可解释性。”他说。

科学家们已经开始测试 R1 的能力。克伦要求两个竞争模型对 3,000 个研究想法进行有趣程度排序,并将结果与人工排名进行比较。根据这一衡量标准,R1 的表现略逊于 o1。但克伦表示,R1 在量子光学的某些计算上胜过 o1。“这相当令人印象深刻。”

[加西网正招聘多名全职sales 待遇优]
好新闻没人评论怎么行,我来说几句
上一页12下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站