Nature發文:DeepSeek讓科學家興奮不已

Nature自然雜志發表文章稱,中國研制的大型語言模型DeepSeek-R1令科學家們興奮不已,它被認為是 OpenAI 的 o1 等推理模型的經濟實惠且開放的競爭對手。


這些模型壹步壹步地生成響應,其過程類似於人類的推理。這使得它們比早期的語言模型更善於解決科學問題,也意味著它們可能在研究中有用。1 月 20 日發布的 R1 的初步測試表明,它在化學、數學和編碼的某些任務上的表現與 o1 相當——後者在 9 月由 OpenAI 發布時讓研究人員驚歎不已。

“這太瘋狂了,完全出乎意料。”人工智能研究員、英國人工智能咨詢公司 DAIR.AI 聯合創始人埃爾維斯·薩拉維亞 (Elvis Saravia) 在 X 上寫道。

R1 脫穎而出還有另壹個原因。建立該模型的杭州初創公司 DeepSeek 已將其作為開放模型發布,這意味著研究人員可以研究和構建該算法。該模型根據麻省理工學院的許可證發布,可以自由重復使用,但不被視為完全開源,因為其訓練數據尚未公開。

德國埃爾朗根馬克斯普朗克光科學研究所人工智能科學家實驗室負責人馬裡奧·克倫 (Mario Krenn) 表示:DeepSeek 的開放性非常了不起。

相比之下,加州舊金山 OpenAI 建立的 o1 和其他模型(包括其最新成果 o3)本質上都是黑匣子,他說。

DeepSeek 尚未公布訓練 R1 的全部成本,但其界面收費僅為 o1 運行成本的叁拾分之壹。該公司還創建了 R1 的迷你精簡版本,以允許計算能力有限的研究人員使用該模型。

“使用 o1 進行的實驗成本超過 300 英鎊 [370 美元],而使用 R1 的成本不到 10 美元。”Krenn 說。“這是壹個巨大的差異,肯定會對其未來的采用產生影響。”

挑戰模型

R1 是中文大型語言模型 (LLM) 熱潮的壹部分。DeepSeek 從壹家對沖基金中分拆出來,上個月發布了壹款名為 V3 的聊天機器人,壹舉成名。盡管預算極低,但這款機器人的表現卻超越了主要競爭對手。專家估計,租用訓練該模型所需的硬件成本約為 600 萬美元,而 Meta 的 Llama 3.1 405B 則高達 6000 萬美元,使用的計算資源是 V3 的 11 倍。

DeepSeek 的部分熱門話題是,盡管美國出口管制限制中國公司獲得為人工智能處理而設計的最佳計算機芯片,但它還是成功制造了 R1。華盛頓西雅圖的人工智能研究員 François Chollet 說:R1 來自中國,這壹事實表明,高效利用資源比單純的計算規模更重要。

DeepSeek 的進展表明美國曾經的領先優勢已經大幅縮小,華盛頓州貝爾維尤的技術專家 Alvin Wang Graylin 在 X 上寫道,他在HTC 工作。“中美兩國需要采取合作的方式來打造先進的人工智能,而不是繼續目前這種沒有勝算的軍備競賽方式。”


思路

LLM 訓練數拾億個文本樣本,將它們剪切成單詞部分(稱為標記),並學習數據中的模式。這些關聯允許模型預測句子中的後續標記。但 LLM 容易捏造事實,這種現象稱為幻覺,並且經常難以推理問題。

與 o1 壹樣,R1 使用思路鏈方法來提高 LLM 解決更復雜任務的能力,包括有時回溯和評估其方法。DeepSeek 通過使用強化學習對 V3 進行微調來制作 R1,強化學習會獎勵模型得出正確答案並以概述其思維的方式解決問題。



英國愛丁堡大學人工智能研究員 Wenda Li 表示,計算能力有限促使該公司在算法上進行創新。在強化學習過程中,該團隊估算了模型在每個階段的進度,而不是使用單獨的網絡對其進行評估。

英國劍橋大學計算機科學家 Mateja Jamnik 表示,這有助於降低培訓和運行成本。研究人員還使用了混合專家架構,該架構允許模型僅激活與每項任務相關的部分。

[加西網正招聘多名全職sales 待遇優]
還沒人說話啊,我想來說幾句
上壹頁12下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站