DeepSeek公布成本收入和利潤率!最高日賺346萬

2025-03-01 | 來源: 極客公園 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

然而，EP在兩個方面增加了系統復雜性：EP引入跨節點的傳輸，為了優化吞吐，需要設計合適的計算流程使得傳輸和計算可以同步進行；EP涉及多個節點，因此天然需要Data Parallelism（DP），不同的DP之間需要進行負載均衡。

DeepSeek通過叁種方式應對了這些挑戰：

利用EP增大batch size、將通信延遲隱藏在計算之後、執行負載均衡。

1、大規模跨節點專家並行（EP）

由於DeepSeek-V3/R1的專家數量眾多，並且每層256個專家中僅激活其中8個。模型的高度稀疏性決定了其必須采用很大的overall batch size，才能給每個專家提供足夠的expert batch size，從而實現更大的吞吐、更低的延時。需要大規模跨節點專家並行（Expert Parallelism/EP）。

DeepSeek采用多機多卡間的專家並行策略來達到以下目的：

Prefill：路由專家EP32、MLA和共享專家DP32，壹個部署單元是4節點，32個冗余路由專家，每張卡9個路由專家和1個共享專家

Decode：路由專家EP144、MLA和共享專家DP144，壹個部署單元是18節點，32個冗余路由專家，每張卡2個路由專家和1個共享專家

2、計算-通信重疊

多機多卡的專家並行會引入比較大的通信開銷，所以使用了雙batch重疊來掩蓋通信開銷，提高整體吞吐。

對於prefill階段，兩個batch的計算和通信交錯進行，壹個batch在進行計算的時候可以去掩蓋另壹個batch的通信開銷。

▲預充階段的通信-計算重疊

對於decode階段，不同階段的執行時間有所差別，所以DeepSeek把attention部分拆成了兩個stage，共計5個stage的流水線來實現計算和通信的重疊。

▲解碼階段的通信-計算重疊

3、實現最佳負載均衡

由於采用了很大規模的並行（包括數據並行和專家並行），如果某個GPU的計算或通信負載過重，將成為性能瓶頸，拖慢整個系統；同時其他GPU因為等待而空轉，造成整體利用率下降。因此我們需要盡可能地為每個 GPU 分配均衡的計算負載、通信負載。

Prefill Load Balancer的核心問題：不同數據並行（DP）實例上的請求個數、長度不同，導致core-attention計算量、dispatch發送量也不同。

其優化目標是，各GPU的計算量盡量相同（core-attention計算負載均衡）、輸入的token數量也盡量相同（dispatch發送量負載均衡），避免部分GPU處理時間過長。

[加西網正招聘多名全職sales 待遇優] 好新聞沒人評論怎麼行，我來說幾句

分享:

上壹頁 1 234 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

DeepSeek公布成本收入和利潤率!最高日賺346萬

意見