Nature發文:DeepSeek讓科學家興奮不已

在基准測試中, DeepSeek-R1 在加州大學伯克利分校研究人員編寫的數學問題 MATH-500 中取得了 97.3% 的成績,並在壹項名為 Codeforces 的編程競賽中擊敗了 96.3% 的人類參與者。這些能力與 o1 不相上下;o3 未被納入比較范圍(參見“AI 競爭對手”)。


很難判斷基准測試是否反映了模型真正的推理或概括能力,還是僅僅反映了其通過此類測試的能力。但劍橋大學計算機科學家 Marco Dos Santos 表示,由於 R1 是開放的,研究人員可以訪問其思路。“這使得模型的推理過程具有更好的可解釋性。”他說。

科學家們已經開始測試 R1 的能力。克倫要求兩個競爭模型對 3,000 個研究想法進行有趣程度排序,並將結果與人工排名進行比較。根據這壹衡量標准,R1 的表現略遜於 o1。但克倫表示,R1 在量子光學的某些計算上勝過 o1。“這相當令人印象深刻。”

[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
上壹頁12下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站