[皇帝] Deepseek是真正的創新還是穿著AI皇帝的新衣?
昨天看到很多群裡轉發這條信息:“據彭博新聞周贰報道,微軟和 OpenAI 正在調查 ChatGPT 技術的數據輸出是否被與 DeepSeek 相關的壹個團體以未經授權的方式獲取。
報道稱,微軟的安全研究人員觀察到,在去年秋季,他們認為與 DeepSeek 有關的個人使用 OpenAI 的應用程序編程接口(API)提取了大量數據。”

許多人根據這條信息做出結論,認為Deepseek是小偷,Deepseek是Deepshit。許多人都在轉發這篇題為《deepseek穿上Ai皇帝的新衣,精英集體蛻化為烏合之眾》的文章,認為DeepSeek不過是基於OpenAI的GPT企業版API做了壹些贰次封裝和微調,核心技術並未自研。
我認為這個結論是不准確的,把DS的蒸餾技術當作API贰次封裝顯然是對AI的核心技術不夠了解。
那麼什麼是蒸餾技術呢,業內人士壹般稱為model distillation(模型蒸餾), 也有人稱為knowledge distillation(知識蒸餾),簡單來說,就是將復雜大模型(教師模型)的知識“壓縮”到更輕量的小模型(學生模型)中,通過模仿教師模型的輸出(如概率分布),小模型保持了高性能並且減少了計算量。通俗壹點講,就是學生模仿老師的輸出或中間特征,從而將老師的知識和方法(如推理能力、模式識別等)遷移到學生手裡。
而API贰次封裝指的是壹個App把終端用戶的問題直接甩給另外壹個App,得到回復後再把答案返回這邊的App。
注意這兩者最大的不同是在蒸餾技術裡,學生模型學會了老師的推理方法,有了自己的模型,用戶的問題是在學生模型裡生成的,來自學生自己的App,而在後者,答案是來自另外壹個App。
而DeepSeek的核心優化手段是知識蒸餾,目的是將大模型的智能推理方法高效遷移到自己的輕量化模型中,而非直接壓縮數據,更不是簡單的贰次包裝獲取答案。
文章中提到DeepSeek調用OpenAI的核心證據是當問及”what model are you“時,Deepseek回答是chatGPT,或者”GTP-3”,但這其實不過是DS在Post Training Reinforcement learning (RL)的階段調用了壹些OpenAI的API 獲取壹些數據。而這種調用是允許的,並且是付費的。當然,這裡的確有壹個潛在的問題,那就是OpenAI的API調用,每壹個賬號都有壹個Limit,不知道DS是不是用code或者多人多賬號的方式繞過了這個Limit,這大概就是微軟所說的未經授權的方式獲取數據。
昨天和谷歌壹個負責Gemini構建的技術主管聊了壹陣,他說,其實大模型蒸餾是很常見的,業界壹般就是調用比較強的大模型,獲取幾千至上萬不等的prompts & responses用來做RL。DS的Thinking Model(推理模型)有很大的創新,業界公認的推理模型第壹梯隊包括openAI,谷歌和DS,Anthropic還沒有自己的thinking model, Meta在這方面是落後的。AI業內人士早在半年前就關注DS了,Deepseek的技術是很靠譜的,梁文峰是業界公認的懂技術細節的領導者,放眼整個AI圈都找不到壹把手CEO這麼懂技術細節。DS的確是做的非常好,有許多創新,並且是改變了游戲規則,低成本也可以做AI開發,這必然會鼓勵更多人加入AI的開發大軍。
有人說,DS不過就是蒸餾技術裡的佼佼者而已,答案也並非如此。DS的確是有不少自己的創新的, 用我的壹位朋友,AI技術大拿張崢的話說,就是站在巨人肩膀上,長出了自己的腦袋。
那麼DS到底有哪些創新呢?
首先是模型架構上有創新。
DS是以強化學習(RL)為核心驅動推理能力,傳統大模型主要依賴監督微調(SFT),而 DS首次利用RL作為推理能力的核心訓練方式。DeepSeek-R1-Zero 甚至完全采用 RL 訓練,不依賴 SFT,當然也出現可讀性差、語言混亂等問題。但這是首個公開研究證明 LLM 的推理能力可以純粹通過RL 激勵,而不需要 SFT。這個純粹依賴RL作為訓練方式有些像Deepmind的AlphaGo,通過不斷地學習,不斷地糾錯,從壹無所知直接練成壹個絕世高手。這壹突破為未來該領域的研究奠定了基礎。
DeepSeek-R1 采用 “SFT + RL” 的混合訓練策略,既保持了語言表達的自然流暢,又強化了推理能力。效果非常好,Performance比肩GPT-01的模型了,注意這些Benchmark都是要通過第叁方驗證,並不是DS自己說了算的:

其次是DS在訓練與數據策略上有創新。
DS提出了新的訓練管道: 該管道包含兩個 RL stage,用於發現改進的推理模式並對⻬人類的偏好,同時還包含兩個 SFT stage,作為推理模型與非推理能力的種子。
DS在訓練的時候強調質量優先, 用的是高質量、垂直領域的數據(如數學題解、代碼倉庫),而不是單純追求數據規模。還有就是高性價比的訓練:通過架構優化和數據效率提升,僅用1/8的訓練算力即達到GPT-3.5的性能水平。
第叁就是DS提供了壹些新的強化學習(RL)的算法。
DS的第伍篇論文《通過強化學習激發大語言模型的推理能力》裡提到了這麼幾種算法:
1. 組相對策略優化(GRPO): 為節省 RL 的訓練成本,DS采用分組的方式,這個有點像在醫院裡掛專門的門診,而不是全部都查壹遍。為了避免傳統強化學習中使用與策略模型相同規模的評論模型(Critic Model),DS通過分組評分來估計基准。
2.獎勵機制(rewarding modeling)。獎勵是訓練信號的來源,決定了強化學習(RL)的優化方向。DS主要用到兩類獎勵:准確性獎勵和格式獎勵。
3. 在訓練 DeepSeek-R1-Zero 時,DS設計了壹個簡單的模板,首先生成推理過程, 然後再生成最終答案。DS有意將約束限制在結構格式上,避免引入任何偏⻅,比如要求模型進行反思性推理,確保准確觀察模型在強化學習過程中的自然發展。
這篇paper還提到了模型自我進化過程中壹個引人注目的地方,就是隨著測試時間和計算的增加,模型會自然湧現出復雜行為和大量強大且有趣的推理行為。例如,模型會反思,並重新評估之前的步驟,還會探索解決問題的替代方法。還會出現頓悟時刻,這些行為並非明確編程而成,而是模型與強化學習環境交互的自然產物。這壹點其實是有些嚇人的,因為和人類的思考過程如此相似。
另外DS還探索了從 DeepSeek-R1 到更小密集模型的蒸餾過程,並且開源提供了六個蒸餾模型給公眾用,任何人都可以去DS的官網下載這些小模型,裝到自己的PC上用,這個做法也是非常大氣的。
我們知道AI的叁大要素是算法,算力和數據。DS在算法上是有很多創新的,在算力上,也通過優化降低了對硬件的需求,極大地降低了對高端芯片的要求,這些都值得稱道的。有些人對DS自稱的600百萬訓練成本表示懷疑,我的壹位業內朋友認為500百萬到壹千萬是可信的,當我追問為什麼,他表示還不能透露。
DS唯壹有些不足的是數據不夠,容易踏空,但是數據這塊也是灰色地帶,耐人尋味的是chatGPT自己的數據來源也不完全合法,Sora幾乎肯定是從youtube裡獲取了數據,而紐約時報也在告OpenAI盜用了他們的數據。並且,DS是開源的,它的API也是以極低廉的價格提供給用戶。但OpenAI雖然自稱Open,卻是閉源的,而且,下載它的最高版本需要200美元,調用API更是昂貴。所以,不難理解為什麼DS 現在躍居為App store裡最受歡迎的APP。相信當更多人使用DS,就會提供更多數據,DS將來對OpenAI數據的依賴也會減少。
當然,DS的短板也是非常明顯的,因為眾所周知的原因,許多社科歷史問題在DS上是沒有答案的,這個時候,DS就會要你換壹個話題。
因為諸如漢芯之類的事件,許多人對國貨表示質疑,這都可以理解,但這次DS的確是做出了不少創新,尤其是開源的態度讓人側目,5篇技術論文也是非常坦誠透明地公布自己的方法和創新,的確贏得了業內人士諸多好評和尊重。
當然,將來可能也會有壹些不為人知的細節慢慢浮出水面,但是,既然敢開源,尤其是面對壹眾人類最強大腦,DS應該是有敬畏的,也是知道深淺的。我們也不妨再等上壹兩個月,如果有人可以完全復制他們的低成本和高效率,應該就更沒有什麼問題了。
另外就是DS和OpenAI其實走的是兩條路,前者是高效訓練(high efficiency),強調優化、算力利用率提升,在更少的資源下達到更好的效果。而後者是Brutal Force(大力出奇跡),用大量的算力和數據來訓練更強大的模型。究竟哪條路會勝出,現在也不好說,但是,這兩者也不是完全對立的,OpenAI 也在優化模型,尤其是在受到DS啟發後,而 DeepSeek 未來如果有足夠資源,也會加大算力投入。因此,兩者的區別更多是現階段策略上的不同,將來肯定是會取長補短。
如果把這場AI之爭不是簡單的看作中美之爭,而是看做開源和閉源之爭,甚至是美國壹個技術網紅Teortaxes說的“人類與通用人工智能 vs 猿類權力集中化之爭(humans and AGIs vs ape power centralization.),那麼我們的心態可能會更寬容壹些。
總之,這些人類最強大腦正在做著天翻地覆的事情,我們只能靜靜地看著它們會把人類引向何方。
(感謝吳同學對本文的建議)
[加西網正招聘多名全職sales 待遇優]
還沒人說話啊,我想來說幾句
報道稱,微軟的安全研究人員觀察到,在去年秋季,他們認為與 DeepSeek 有關的個人使用 OpenAI 的應用程序編程接口(API)提取了大量數據。”

許多人根據這條信息做出結論,認為Deepseek是小偷,Deepseek是Deepshit。許多人都在轉發這篇題為《deepseek穿上Ai皇帝的新衣,精英集體蛻化為烏合之眾》的文章,認為DeepSeek不過是基於OpenAI的GPT企業版API做了壹些贰次封裝和微調,核心技術並未自研。
我認為這個結論是不准確的,把DS的蒸餾技術當作API贰次封裝顯然是對AI的核心技術不夠了解。
那麼什麼是蒸餾技術呢,業內人士壹般稱為model distillation(模型蒸餾), 也有人稱為knowledge distillation(知識蒸餾),簡單來說,就是將復雜大模型(教師模型)的知識“壓縮”到更輕量的小模型(學生模型)中,通過模仿教師模型的輸出(如概率分布),小模型保持了高性能並且減少了計算量。通俗壹點講,就是學生模仿老師的輸出或中間特征,從而將老師的知識和方法(如推理能力、模式識別等)遷移到學生手裡。
而API贰次封裝指的是壹個App把終端用戶的問題直接甩給另外壹個App,得到回復後再把答案返回這邊的App。
注意這兩者最大的不同是在蒸餾技術裡,學生模型學會了老師的推理方法,有了自己的模型,用戶的問題是在學生模型裡生成的,來自學生自己的App,而在後者,答案是來自另外壹個App。
而DeepSeek的核心優化手段是知識蒸餾,目的是將大模型的智能推理方法高效遷移到自己的輕量化模型中,而非直接壓縮數據,更不是簡單的贰次包裝獲取答案。
文章中提到DeepSeek調用OpenAI的核心證據是當問及”what model are you“時,Deepseek回答是chatGPT,或者”GTP-3”,但這其實不過是DS在Post Training Reinforcement learning (RL)的階段調用了壹些OpenAI的API 獲取壹些數據。而這種調用是允許的,並且是付費的。當然,這裡的確有壹個潛在的問題,那就是OpenAI的API調用,每壹個賬號都有壹個Limit,不知道DS是不是用code或者多人多賬號的方式繞過了這個Limit,這大概就是微軟所說的未經授權的方式獲取數據。
昨天和谷歌壹個負責Gemini構建的技術主管聊了壹陣,他說,其實大模型蒸餾是很常見的,業界壹般就是調用比較強的大模型,獲取幾千至上萬不等的prompts & responses用來做RL。DS的Thinking Model(推理模型)有很大的創新,業界公認的推理模型第壹梯隊包括openAI,谷歌和DS,Anthropic還沒有自己的thinking model, Meta在這方面是落後的。AI業內人士早在半年前就關注DS了,Deepseek的技術是很靠譜的,梁文峰是業界公認的懂技術細節的領導者,放眼整個AI圈都找不到壹把手CEO這麼懂技術細節。DS的確是做的非常好,有許多創新,並且是改變了游戲規則,低成本也可以做AI開發,這必然會鼓勵更多人加入AI的開發大軍。
有人說,DS不過就是蒸餾技術裡的佼佼者而已,答案也並非如此。DS的確是有不少自己的創新的, 用我的壹位朋友,AI技術大拿張崢的話說,就是站在巨人肩膀上,長出了自己的腦袋。
那麼DS到底有哪些創新呢?
首先是模型架構上有創新。
DS是以強化學習(RL)為核心驅動推理能力,傳統大模型主要依賴監督微調(SFT),而 DS首次利用RL作為推理能力的核心訓練方式。DeepSeek-R1-Zero 甚至完全采用 RL 訓練,不依賴 SFT,當然也出現可讀性差、語言混亂等問題。但這是首個公開研究證明 LLM 的推理能力可以純粹通過RL 激勵,而不需要 SFT。這個純粹依賴RL作為訓練方式有些像Deepmind的AlphaGo,通過不斷地學習,不斷地糾錯,從壹無所知直接練成壹個絕世高手。這壹突破為未來該領域的研究奠定了基礎。
DeepSeek-R1 采用 “SFT + RL” 的混合訓練策略,既保持了語言表達的自然流暢,又強化了推理能力。效果非常好,Performance比肩GPT-01的模型了,注意這些Benchmark都是要通過第叁方驗證,並不是DS自己說了算的:

其次是DS在訓練與數據策略上有創新。
DS提出了新的訓練管道: 該管道包含兩個 RL stage,用於發現改進的推理模式並對⻬人類的偏好,同時還包含兩個 SFT stage,作為推理模型與非推理能力的種子。
DS在訓練的時候強調質量優先, 用的是高質量、垂直領域的數據(如數學題解、代碼倉庫),而不是單純追求數據規模。還有就是高性價比的訓練:通過架構優化和數據效率提升,僅用1/8的訓練算力即達到GPT-3.5的性能水平。
第叁就是DS提供了壹些新的強化學習(RL)的算法。
DS的第伍篇論文《通過強化學習激發大語言模型的推理能力》裡提到了這麼幾種算法:
1. 組相對策略優化(GRPO): 為節省 RL 的訓練成本,DS采用分組的方式,這個有點像在醫院裡掛專門的門診,而不是全部都查壹遍。為了避免傳統強化學習中使用與策略模型相同規模的評論模型(Critic Model),DS通過分組評分來估計基准。
2.獎勵機制(rewarding modeling)。獎勵是訓練信號的來源,決定了強化學習(RL)的優化方向。DS主要用到兩類獎勵:准確性獎勵和格式獎勵。
3. 在訓練 DeepSeek-R1-Zero 時,DS設計了壹個簡單的模板,首先生成推理過程, 然後再生成最終答案。DS有意將約束限制在結構格式上,避免引入任何偏⻅,比如要求模型進行反思性推理,確保准確觀察模型在強化學習過程中的自然發展。
這篇paper還提到了模型自我進化過程中壹個引人注目的地方,就是隨著測試時間和計算的增加,模型會自然湧現出復雜行為和大量強大且有趣的推理行為。例如,模型會反思,並重新評估之前的步驟,還會探索解決問題的替代方法。還會出現頓悟時刻,這些行為並非明確編程而成,而是模型與強化學習環境交互的自然產物。這壹點其實是有些嚇人的,因為和人類的思考過程如此相似。
另外DS還探索了從 DeepSeek-R1 到更小密集模型的蒸餾過程,並且開源提供了六個蒸餾模型給公眾用,任何人都可以去DS的官網下載這些小模型,裝到自己的PC上用,這個做法也是非常大氣的。
我們知道AI的叁大要素是算法,算力和數據。DS在算法上是有很多創新的,在算力上,也通過優化降低了對硬件的需求,極大地降低了對高端芯片的要求,這些都值得稱道的。有些人對DS自稱的600百萬訓練成本表示懷疑,我的壹位業內朋友認為500百萬到壹千萬是可信的,當我追問為什麼,他表示還不能透露。
DS唯壹有些不足的是數據不夠,容易踏空,但是數據這塊也是灰色地帶,耐人尋味的是chatGPT自己的數據來源也不完全合法,Sora幾乎肯定是從youtube裡獲取了數據,而紐約時報也在告OpenAI盜用了他們的數據。並且,DS是開源的,它的API也是以極低廉的價格提供給用戶。但OpenAI雖然自稱Open,卻是閉源的,而且,下載它的最高版本需要200美元,調用API更是昂貴。所以,不難理解為什麼DS 現在躍居為App store裡最受歡迎的APP。相信當更多人使用DS,就會提供更多數據,DS將來對OpenAI數據的依賴也會減少。
當然,DS的短板也是非常明顯的,因為眾所周知的原因,許多社科歷史問題在DS上是沒有答案的,這個時候,DS就會要你換壹個話題。
因為諸如漢芯之類的事件,許多人對國貨表示質疑,這都可以理解,但這次DS的確是做出了不少創新,尤其是開源的態度讓人側目,5篇技術論文也是非常坦誠透明地公布自己的方法和創新,的確贏得了業內人士諸多好評和尊重。
當然,將來可能也會有壹些不為人知的細節慢慢浮出水面,但是,既然敢開源,尤其是面對壹眾人類最強大腦,DS應該是有敬畏的,也是知道深淺的。我們也不妨再等上壹兩個月,如果有人可以完全復制他們的低成本和高效率,應該就更沒有什麼問題了。
另外就是DS和OpenAI其實走的是兩條路,前者是高效訓練(high efficiency),強調優化、算力利用率提升,在更少的資源下達到更好的效果。而後者是Brutal Force(大力出奇跡),用大量的算力和數據來訓練更強大的模型。究竟哪條路會勝出,現在也不好說,但是,這兩者也不是完全對立的,OpenAI 也在優化模型,尤其是在受到DS啟發後,而 DeepSeek 未來如果有足夠資源,也會加大算力投入。因此,兩者的區別更多是現階段策略上的不同,將來肯定是會取長補短。
如果把這場AI之爭不是簡單的看作中美之爭,而是看做開源和閉源之爭,甚至是美國壹個技術網紅Teortaxes說的“人類與通用人工智能 vs 猿類權力集中化之爭(humans and AGIs vs ape power centralization.),那麼我們的心態可能會更寬容壹些。
總之,這些人類最強大腦正在做著天翻地覆的事情,我們只能靜靜地看著它們會把人類引向何方。
(感謝吳同學對本文的建議)
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: |
| 延伸閱讀 | 更多... |
推薦: