中國的大模型成本僅國外叁拾分之壹,硅谷恐慌

[加州] 中國的大模型成本僅國外叁拾分之壹,硅谷恐慌

2025-01-25 | 來源: 知識分子 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

而今年年初DeepSeek-R1發布後，硅谷科技界的評價依然很高。亞歷山大·王認為“我們發現，DeepSeek……是表現最好的，或者大致與美國最好的模型相當.這個領域的競爭越來越激烈，而不是越來越少[2]”。

Jim Fan的評價更上壹層樓，甚至討論起了DeepSeek“接班”OpenAI的話題。相比依靠閉源構築護城河的OpenAI，他在社交網站上表示“我們生活在這樣壹個時間線上，壹家非美國公司正在維持 OpenAI 的原始使命——真正開放、前沿的研究，賦予所有人力量。這看似不合邏輯，但最有趣的結果往往最容易發生”。

在基准測試中的得分未必能完全代表大模型的真實能力，科學家們對R1的能力持更為謹慎的態度。目前，科學家們已經開始對R1進行更深入的測試。

德國埃爾蘭根馬克斯·普朗克光學研究所人工智能科學家實驗室負責人馬裡奧·克倫，讓OpenAI o1和DeepSeek-R1兩個競爭模型對3,000個研究想法按照其有趣程度進行排序，並將結果與人類的排序進行了比較。在這個評估標准上，R1的表現略遜於o1。然而，她指出R1在某些量子光學計算任務中表現優於o1。

02 不走尋常路

引起AI圈好奇的，除了DeepSeek-R1性能表現和低成本，還有技術論文中展示的，DeepSeek團隊對於AI訓練方法的新嘗試。

以往的模型在提升推理能力時，通常依賴於把監督微調（SFT）這個環節。在監督微調階段，研究人員會使用大量已標注的數據對預訓練的AI模型進行進壹步訓練。這些數據包含了問題及其對應的正確答案，以及如何建立思考步驟的范例。靠著這些模仿人類思維的“例題”和“答案”，大模型得以提升推理能力。

DeepSeek-R1訓練過程中的DeepSeek-R1-Zero路線則直接將強化學習（RL）應用於基礎模型。他們的目標是探索大模型在沒有任何監督數據的情況下，通過純強化學習過程進行自我進化，從而獲得推理能力。

團隊建立了兩條最簡單的獎勵規則。壹條是准確性獎勵，對了加分錯了減分。另壹條是格式要求，模型要把思考過程寫在和標簽之間，類似於考試中我們必須把答案寫在答題框裡。不靠“例題”，只讓AI這個“學生”以自己的方式學會做推理。

從基准測試的成績看，DeepSeek-R1-Zero 無需任何監督微調數據即可獲得強大的推理能力。在AIME 2024基准測試裡，使用多數投票機制時的DeepSeek-R1-Zero達到86.7%准確率，高過OpenAI o1。

在訓練OpenAI o1這個級別的推理模型這個任務上，DeepSeek-R1是首個直接強化學習證明這壹方法有效的模型。

艾倫人工智能研究所（Allen Institute for AI）的研究科學家內森·蘭伯特（Nathan Lambert）在社交媒體上表示，R1的論文“是推理模型研究不確定性中的壹個重要轉折點”，因為“到目前為止，推理模型壹直是工業研究的壹個重要領域，但缺乏壹篇具有開創性的論文[5]。”

中山大學集成電路學院助理教授王美琪解釋稱，直接強化學習方法與 DeepSeek 團隊在多版模型迭代中的壹系列工程優化技術（如簡化獎懲模型設計等）相結合，有效降低了大模型的訓練成本。直接強化學習避免了大量人工標注數據的工作，而獎懲模型的簡化設計等則減少了對計算資源的需求。

DeepSeek-R1 的成果顯示，大規模運用直接強化學習，而非依賴大模型經典訓練范式（如采用預設思維鏈模版和監督微調）是可行的。這為大模型訓練提供了更高效的思路，有望啟發更多研究人員和工程師沿著這壹方向進行復現與探索。DeepSeek 還開源模型並提供了詳細技術報告，也有助於他人快速驗證和拓展該方法。

[加西網正招聘多名全職sales 待遇優] 無評論不新聞，發表壹下您的意見吧

分享:

上壹頁 123 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

[加州] 中國的大模型成本僅國外叁拾分之壹,硅谷恐慌

意見