Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_308e2df3f4232ad08e1c5ca6c7314ec4, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
Deepseek是真正的創新還是穿著AI皇帝的新衣? | 溫哥華教育中心
   

[皇帝] Deepseek是真正的創新還是穿著AI皇帝的新衣?

DeepSeek-R1 采用 “SFT + RL” 的混合訓練策略,既保持了語言表達的自然流暢,又強化了推理能力。效果非常好,Performance比肩GPT-01的模型了,注意這些Benchmark都是要通過第叁方驗證,並不是DS自己說了算的:




其次是DS在訓練與數據策略上有創新。

DS提出了新的訓練管道: 該管道包含兩個 RL stage,用於發現改進的推理模式並對⻬人類的偏好,同時還包含兩個 SFT stage,作為推理模型與非推理能力的種子。

DS在訓練的時候強調質量優先, 用的是高質量、垂直領域的數據(如數學題解、代碼倉庫),而不是單純追求數據規模。還有就是高性價比的訓練:通過架構優化和數據效率提升,僅用1/8的訓練算力即達到GPT-3.5的性能水平。

第叁就是DS提供了壹些新的強化學習(RL)的算法。

DS的第伍篇論文《通過強化學習激發大語言模型的推理能力》裡提到了這麼幾種算法:

1. 組相對策略優化(GRPO): 為節省 RL 的訓練成本,DS采用分組的方式,這個有點像在醫院裡掛專門的門診,而不是全部都查壹遍。為了避免傳統強化學習中使用與策略模型相同規模的評論模型(Critic Model),DS通過分組評分來估計基准。

2.獎勵機制(rewarding modeling)。獎勵是訓練信號的來源,決定了強化學習(RL)的優化方向。DS主要用到兩類獎勵:准確性獎勵和格式獎勵。

3. 在訓練 DeepSeek-R1-Zero 時,DS設計了壹個簡單的模板,首先生成推理過程, 然後再生成最終答案。DS有意將約束限制在結構格式上,避免引入任何偏⻅,比如要求模型進行反思性推理,確保准確觀察模型在強化學習過程中的自然發展。

這篇paper還提到了模型自我進化過程中壹個引人注目的地方,就是隨著測試時間和計算的增加,模型會自然湧現出復雜行為和大量強大且有趣的推理行為。例如,模型會反思,並重新評估之前的步驟,還會探索解決問題的替代方法。還會出現頓悟時刻,這些行為並非明確編程而成,而是模型與強化學習環境交互的自然產物。這壹點其實是有些嚇人的,因為和人類的思考過程如此相似。


另外DS還探索了從 DeepSeek-R1 到更小密集模型的蒸餾過程,並且開源提供了六個蒸餾模型給公眾用,任何人都可以去DS的官網下載這些小模型,裝到自己的PC上用,這個做法也是非常大氣的。

我們知道AI的叁大要素是算法,算力和數據。DS在算法上是有很多創新的,在算力上,也通過優化降低了對硬件的需求,極大地降低了對高端芯片的要求,這些都值得稱道的。有些人對DS自稱的600百萬訓練成本表示懷疑,我的壹位業內朋友認為500百萬到壹千萬是可信的,當我追問為什麼,他表示還不能透露。

DS唯壹有些不足的是數據不夠,容易踏空,但是數據這塊也是灰色地帶,耐人尋味的是chatGPT自己的數據來源也不完全合法,Sora幾乎肯定是從youtube裡獲取了數據,而紐約時報也在告OpenAI盜用了他們的數據。並且,DS是開源的,它的API也是以極低廉的價格提供給用戶。但OpenAI雖然自稱Open,卻是閉源的,而且,下載它的最高版本需要200美元,調用API更是昂貴。所以,不難理解為什麼DS 現在躍居為App store裡最受歡迎的APP。相信當更多人使用DS,就會提供更多數據,DS將來對OpenAI數據的依賴也會減少。

當然,DS的短板也是非常明顯的,因為眾所周知的原因,許多社科歷史問題在DS上是沒有答案的,這個時候,DS就會要你換壹個話題。

因為諸如漢芯之類的事件,許多人對國貨表示質疑,這都可以理解,但這次DS的確是做出了不少創新,尤其是開源的態度讓人側目,5篇技術論文也是非常坦誠透明地公布自己的方法和創新,的確贏得了業內人士諸多好評和尊重。

[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀 更多...
    逐玉:皇帝設局陷害忠臣,謝征身中迷魂催情香與樊長玉圓房! "皇帝在哪下罪己詔?"鄭麗文提問犀利
    波斯皇帝去哪了?聊聊贏麻了的故事 中國史上唯壹"選舉"產生的皇帝(圖
    她,成中國第壹個休"皇帝"的女人 事故頻發背後的"系統性合謀"與"避責狂歡":皇帝的新裝
    蘇聯檔案揭真相 他騙了康雍乾叁代皇帝 任劍濤最新火爆演講:皇帝制度為何卷土重來
    過年皇帝不舒爽!這3天只能由"她"陪睡 皇帝年夜飯吃什麼?清皇室除夕家宴大公開
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站