Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_a20650a0283a7bfd30c6e67e11b54510, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
DeepSeek公布成本收入和利潤率!最高日賺346萬 | 溫哥華地產中心
   

DeepSeek公布成本收入和利潤率!最高日賺346萬

然而,EP在兩個方面增加了系統復雜性:EP引入跨節點的傳輸,為了優化吞吐,需要設計合適的計算流程使得傳輸和計算可以同步進行;EP涉及多個節點,因此天然需要Data Parallelism(DP),不同的DP之間需要進行負載均衡。


DeepSeek通過叁種方式應對了這些挑戰:

利用EP增大batch size、將通信延遲隱藏在計算之後、執行負載均衡。

1、大規模跨節點專家並行(EP)

由於DeepSeek-V3/R1的專家數量眾多,並且每層256個專家中僅激活其中8個。模型的高度稀疏性決定了其必須采用很大的overall batch size,才能給每個專家提供足夠的expert batch size,從而實現更大的吞吐、更低的延時。需要大規模跨節點專家並行(Expert Parallelism/EP)。

DeepSeek采用多機多卡間的專家並行策略來達到以下目的:

Prefill:路由專家EP32、MLA和共享專家DP32,壹個部署單元是4節點,32個冗余路由專家,每張卡9個路由專家和1個共享專家

Decode:路由專家EP144、MLA和共享專家DP144,壹個部署單元是18節點,32個冗余路由專家,每張卡2個路由專家和1個共享專家

2、計算-通信重疊

多機多卡的專家並行會引入比較大的通信開銷,所以使用了雙batch重疊來掩蓋通信開銷,提高整體吞吐。

對於prefill階段,兩個batch的計算和通信交錯進行,壹個batch在進行計算的時候可以去掩蓋另壹個batch的通信開銷。



▲預充階段的通信-計算重疊

對於decode階段,不同階段的執行時間有所差別,所以DeepSeek把attention部分拆成了兩個stage,共計5個stage的流水線來實現計算和通信的重疊。




▲解碼階段的通信-計算重疊

3、實現最佳負載均衡

由於采用了很大規模的並行(包括數據並行和專家並行),如果某個GPU的計算或通信負載過重,將成為性能瓶頸,拖慢整個系統;同時其他GPU因為等待而空轉,造成整體利用率下降。因此我們需要盡可能地為每個 GPU 分配均衡的計算負載、通信負載。

Prefill Load Balancer的核心問題:不同數據並行(DP)實例上的請求個數、長度不同,導致core-attention計算量、dispatch發送量也不同。

其優化目標是,各GPU的計算量盡量相同(core-attention計算負載均衡)、輸入的token數量也盡量相同(dispatch發送量負載均衡),避免部分GPU處理時間過長。

[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站