[加州] 中國的大模型成本僅國外叁拾分之壹,硅谷恐慌

而今年年初DeepSeek-R1發布後,硅谷科技界的評價依然很高。亞歷山大·王認為“我們發現,DeepSeek……是表現最好的,或者大致與美國最好的模型相當.這個領域的競爭越來越激烈,而不是越來越少[2]”。


Jim Fan的評價更上壹層樓,甚至討論起了DeepSeek“接班”OpenAI的話題。相比依靠閉源構築護城河的OpenAI,他在社交網站上表示“我們生活在這樣壹個時間線上,壹家非美國公司正在維持 OpenAI 的原始使命——真正開放、前沿的研究,賦予所有人力量。這看似不合邏輯,但最有趣的結果往往最容易發生”。

在基准測試中的得分未必能完全代表大模型的真實能力,科學家們對R1的能力持更為謹慎的態度。目前,科學家們已經開始對R1進行更深入的測試。

德國埃爾蘭根馬克斯·普朗克光學研究所人工智能科學家實驗室負責人馬裡奧·克倫,讓OpenAI o1和DeepSeek-R1兩個競爭模型對3,000個研究想法按照其有趣程度進行排序,並將結果與人類的排序進行了比較。在這個評估標准上,R1的表現略遜於o1。然而,她指出R1在某些量子光學計算任務中表現優於o1。

02 不走尋常路

引起AI圈好奇的,除了DeepSeek-R1性能表現和低成本,還有技術論文中展示的,DeepSeek團隊對於AI訓練方法的新嘗試。

以往的模型在提升推理能力時,通常依賴於把監督微調(SFT)這個環節。在監督微調階段,研究人員會使用大量已標注的數據對預訓練的AI模型進行進壹步訓練。這些數據包含了問題及其對應的正確答案,以及如何建立思考步驟的范例。靠著這些模仿人類思維的“例題”和“答案”,大模型得以提升推理能力。



DeepSeek-R1訓練過程中的DeepSeek-R1-Zero路線則直接將強化學習(RL)應用於基礎模型。他們的目標是探索大模型在沒有任何監督數據的情況下,通過純強化學習過程進行自我進化,從而獲得推理能力。

團隊建立了兩條最簡單的獎勵規則。壹條是准確性獎勵,對了加分錯了減分。另壹條是格式要求,模型要把思考過程寫在和標簽之間,類似於考試中我們必須把答案寫在答題框裡。不靠“例題”,只讓AI這個“學生”以自己的方式學會做推理。


從基准測試的成績看,DeepSeek-R1-Zero 無需任何監督微調數據即可獲得強大的推理能力。在AIME 2024基准測試裡,使用多數投票機制時的DeepSeek-R1-Zero達到86.7%准確率,高過OpenAI o1。

在訓練OpenAI o1這個級別的推理模型這個任務上,DeepSeek-R1是首個直接強化學習證明這壹方法有效的模型。

艾倫人工智能研究所(Allen Institute for AI)的研究科學家內森·蘭伯特(Nathan Lambert)在社交媒體上表示,R1的論文“是推理模型研究不確定性中的壹個重要轉折點”,因為“到目前為止,推理模型壹直是工業研究的壹個重要領域,但缺乏壹篇具有開創性的論文[5]。”

中山大學集成電路學院助理教授王美琪解釋稱,直接強化學習方法與 DeepSeek 團隊在多版模型迭代中的壹系列工程優化技術(如簡化獎懲模型設計等)相結合,有效降低了大模型的訓練成本。直接強化學習避免了大量人工標注數據的工作,而獎懲模型的簡化設計等則減少了對計算資源的需求。

DeepSeek-R1 的成果顯示,大規模運用直接強化學習,而非依賴大模型經典訓練范式(如采用預設思維鏈模版和監督微調)是可行的。這為大模型訓練提供了更高效的思路,有望啟發更多研究人員和工程師沿著這壹方向進行復現與探索。DeepSeek 還開源模型並提供了詳細技術報告,也有助於他人快速驗證和拓展該方法。

[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀 更多...
    美最高法院給加州重劃選區開綠燈,中期選舉有好戲了? 加州州長紐森談母親協助自殺經歷:我曾恨她讓...
    離開加州就出事?華人車禍報警 卻被移交ICE拘押 不懂中文,已經混不進硅谷核心圈了?
    加州大掃蕩賣淫場所 逮600多人 超壹半是嫖客 硅谷又炸了!Clawdbot開始雇人類 2萬人排隊賣身  (1條評論)
    舊金山灣區地震1天狂晃40多次,科學家不知何時結束 今早舊金山再次密集地震群!壹上午超20次地震…
    賭城民宅驚現"地下生物實驗室":疑與加州華商有關 加州海豚"用尾巴走路" 導游看傻:這行為太罕見!
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站