DeepSeek公布成本收入和利潤率!最高日賺346萬
然而,EP在兩個方面增加了系統復雜性:EP引入跨節點的傳輸,為了優化吞吐,需要設計合適的計算流程使得傳輸和計算可以同步進行;EP涉及多個節點,因此天然需要Data Parallelism(DP),不同的DP之間需要進行負載均衡。
DeepSeek通過叁種方式應對了這些挑戰:
利用EP增大batch size、將通信延遲隱藏在計算之後、執行負載均衡。
1、大規模跨節點專家並行(EP)
由於DeepSeek-V3/R1的專家數量眾多,並且每層256個專家中僅激活其中8個。模型的高度稀疏性決定了其必須采用很大的overall batch size,才能給每個專家提供足夠的expert batch size,從而實現更大的吞吐、更低的延時。需要大規模跨節點專家並行(Expert Parallelism/EP)。
DeepSeek采用多機多卡間的專家並行策略來達到以下目的:
Prefill:路由專家EP32、MLA和共享專家DP32,壹個部署單元是4節點,32個冗余路由專家,每張卡9個路由專家和1個共享專家
Decode:路由專家EP144、MLA和共享專家DP144,壹個部署單元是18節點,32個冗余路由專家,每張卡2個路由專家和1個共享專家
2、計算-通信重疊
多機多卡的專家並行會引入比較大的通信開銷,所以使用了雙batch重疊來掩蓋通信開銷,提高整體吞吐。
對於prefill階段,兩個batch的計算和通信交錯進行,壹個batch在進行計算的時候可以去掩蓋另壹個batch的通信開銷。

▲預充階段的通信-計算重疊
對於decode階段,不同階段的執行時間有所差別,所以DeepSeek把attention部分拆成了兩個stage,共計5個stage的流水線來實現計算和通信的重疊。

▲解碼階段的通信-計算重疊
3、實現最佳負載均衡
由於采用了很大規模的並行(包括數據並行和專家並行),如果某個GPU的計算或通信負載過重,將成為性能瓶頸,拖慢整個系統;同時其他GPU因為等待而空轉,造成整體利用率下降。因此我們需要盡可能地為每個 GPU 分配均衡的計算負載、通信負載。
Prefill Load Balancer的核心問題:不同數據並行(DP)實例上的請求個數、長度不同,導致core-attention計算量、dispatch發送量也不同。
其優化目標是,各GPU的計算量盡量相同(core-attention計算負載均衡)、輸入的token數量也盡量相同(dispatch發送量負載均衡),避免部分GPU處理時間過長。
[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
DeepSeek通過叁種方式應對了這些挑戰:
利用EP增大batch size、將通信延遲隱藏在計算之後、執行負載均衡。
1、大規模跨節點專家並行(EP)
由於DeepSeek-V3/R1的專家數量眾多,並且每層256個專家中僅激活其中8個。模型的高度稀疏性決定了其必須采用很大的overall batch size,才能給每個專家提供足夠的expert batch size,從而實現更大的吞吐、更低的延時。需要大規模跨節點專家並行(Expert Parallelism/EP)。
DeepSeek采用多機多卡間的專家並行策略來達到以下目的:
Prefill:路由專家EP32、MLA和共享專家DP32,壹個部署單元是4節點,32個冗余路由專家,每張卡9個路由專家和1個共享專家
Decode:路由專家EP144、MLA和共享專家DP144,壹個部署單元是18節點,32個冗余路由專家,每張卡2個路由專家和1個共享專家
2、計算-通信重疊
多機多卡的專家並行會引入比較大的通信開銷,所以使用了雙batch重疊來掩蓋通信開銷,提高整體吞吐。
對於prefill階段,兩個batch的計算和通信交錯進行,壹個batch在進行計算的時候可以去掩蓋另壹個batch的通信開銷。

▲預充階段的通信-計算重疊
對於decode階段,不同階段的執行時間有所差別,所以DeepSeek把attention部分拆成了兩個stage,共計5個stage的流水線來實現計算和通信的重疊。

▲解碼階段的通信-計算重疊
3、實現最佳負載均衡
由於采用了很大規模的並行(包括數據並行和專家並行),如果某個GPU的計算或通信負載過重,將成為性能瓶頸,拖慢整個系統;同時其他GPU因為等待而空轉,造成整體利用率下降。因此我們需要盡可能地為每個 GPU 分配均衡的計算負載、通信負載。
Prefill Load Balancer的核心問題:不同數據並行(DP)實例上的請求個數、長度不同,導致core-attention計算量、dispatch發送量也不同。
其優化目標是,各GPU的計算量盡量相同(core-attention計算負載均衡)、輸入的token數量也盡量相同(dispatch發送量負載均衡),避免部分GPU處理時間過長。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:



