Nature发文:DeepSeek让科学家兴奋不已
在基准测试中, DeepSeek-R1 在加州大学伯克利分校研究人员编写的数学问题 MATH-500 中取得了 97.3% 的成绩,并在一项名为 Codeforces 的编程竞赛中击败了 96.3% 的人类参与者。这些能力与 o1 不相上下;o3 未被纳入比较范围(参见“AI 竞争对手”)。
很难判断基准测试是否反映了模型真正的推理或概括能力,还是仅仅反映了其通过此类测试的能力。但剑桥大学计算机科学家 Marco Dos Santos 表示,由于 R1 是开放的,研究人员可以访问其思路。“这使得模型的推理过程具有更好的可解释性。”他说。
科学家们已经开始测试 R1 的能力。克伦要求两个竞争模型对 3,000 个研究想法进行有趣程度排序,并将结果与人工排名进行比较。根据这一衡量标准,R1 的表现略逊于 o1。但克伦表示,R1 在量子光学的某些计算上胜过 o1。“这相当令人印象深刻。”
[加西网正招聘多名全职sales 待遇优]
好新闻没人评论怎么行,我来说几句
很难判断基准测试是否反映了模型真正的推理或概括能力,还是仅仅反映了其通过此类测试的能力。但剑桥大学计算机科学家 Marco Dos Santos 表示,由于 R1 是开放的,研究人员可以访问其思路。“这使得模型的推理过程具有更好的可解释性。”他说。
科学家们已经开始测试 R1 的能力。克伦要求两个竞争模型对 3,000 个研究想法进行有趣程度排序,并将结果与人工排名进行比较。根据这一衡量标准,R1 的表现略逊于 o1。但克伦表示,R1 在量子光学的某些计算上胜过 o1。“这相当令人印象深刻。”
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
推荐:
Nature发文:DeepSeek让科学家兴奋不已