Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_f17dc72889d8118bfa7169a999bf671b, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34

Warning: mb_substr(): Unknown encoding "_CHARSET2" in /var/www/vhosts/vandaily.com/httpdocs/includes/classes/news_core.php on line 1908

Warning: mb_strlen(): Unknown encoding "_CHARSET2" in /var/www/vhosts/vandaily.com/httpdocs/includes/classes/news_core.php on line 1909

Warning: mb_strrpos(): Unknown encoding "_CHARSET2" in /var/www/vhosts/vandaily.com/httpdocs/includes/classes/news_core.php on line 1911

Warning: mb_strrpos(): Unknown encoding "_CHARSET2" in /var/www/vhosts/vandaily.com/httpdocs/includes/classes/news_core.php on line 1914
Bye,英伟达!华为NPU,跑出准万亿参数大模型 | 温哥华地产中心
   

[华为] Bye,英伟达!华为NPU,跑出准万亿参数大模型

中国媒体量子位报道:现在,跑准万亿参数的大模型,可以彻底跟英伟达Say Goodbye了。


完成此举的,正是华为!

要知道,在此之前,训练万亿参数大模型这事,是有诸多“拦路虎”在身上的。

例如负载均衡难、通信开销大、训练效率低等等。

而华为盘古团队(包含诺亚方舟实验室、华为云等)基于昇腾国产算力平台,一举攻破了上述所有的挑战——

6000+块昇腾NPU集群上完成了7180亿(718B)参数MoE模型的长期稳定训练,并通过多项突破性系统优化技术实现了显著性能提升。

这些创新大幅提高了训练效率,支撑了行业顶尖水平模型的开发!

不得不说,“国产”二字在大模型硬件上的含金量还在持续上升。

纯国产NPU,丝滑跑通准万亿参数大模型

在拆解华为一系列“黑科技”之前,我们先需要更深入地了解一下训练超大参数MoE模型背后的困难。

总体来看,在这条路上有“四大金刚”在严阵把守。



技术报告:arxiv.org/abs/2505.04519

首先就是架构参数优化难题,需在众多参数组合中探索最优配置,设计适配昇腾NPU的大规模MoE架构,实现计算资源的高效利用。

其次是动态负载均衡挑战,路由机制需要智能分配任务,避免专家资源分配不均;这种不平衡不仅会因“木桶效应”降低训练效率,更可能导致模型收敛异常,影响最终性能表现。

还有分布式通信的瓶颈,在近万亿参数规模下,token在不同计算节点间的专家流转会产生巨大通信开销,“通信墙”问题成为制约训练效率的关键因素。

最后就是硬件适配复杂度,实现MoE算法与昇腾NPU等专用AI加速器的深度协同,需要打通算法设计、软件框架和硬件特性的全栈优化,充分释放硬件计算潜力。

针对这些问题,华为的这份技术报告分别从模型架构、MoE训练分析、系统优化等方面,详细介绍了其如何见招拆招。


首先就是MoE结构选型与昇腾亲和结构优化。

团队先进行先导实验,确定了细粒度专家加上共享专家这样的范式。随后在模型选型的时候,考虑了多个方面的因素。

在计算与访存亲和方面,通过增大模型里的hidden size(隐藏层大小),同时降低激活参数量,这样不仅能提升模型的计算量,还可以降低访存量,提高了模型训练时对算力的利用率,以及推理时的吞吐量。

在多维并行亲和方面,采用数量为2的指数级的专家数量,达成了TP8×EP4超融合并行的方式。

运用TP-extend-EP技术,避免因 TP 切分细粒度专家造成MatMul(矩阵乘法)等算子的效率下降,同时使用分组 AllToAll 通信技术来减少 EP 通信所产生的开销。

在 DaVinci 架构亲和方面,将张量按照256进行对齐处理,使其能完美匹配16×16矩阵计算单元,充分释放昇腾NPU的算力。

在流水线编排亲和方面,采用PP(流水线并行)、VPP(可变流水线并行)、空层等技术,实现PP和VPP的负载均衡,减少计算资源闲置(空泡)的情况。



[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
Prev Page123456Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
     延伸阅读 More...
    黄仁勋:受出口管制影响 中国AI市场已让给华为 英伟达受限 华为AI芯片有望夺中国市占龙头
    DeepSeek V4 引爆需求:华为升腾950芯片遭疯抢 多位顶级专家离职....华为迎来前所未有危机
    糗大了!华为发布会新车"瘫"在台上 DeepSeek 新模型用华为芯片 舍弃英伟达
    华为2025年营收8809亿元 研发投入1923亿元 外媒:中国AI落后美国竞争对手 华为苦哈哈是明证
    顶尖科学家跳槽华为 敲响国安警钟 父母爱情:老丁娶德华为妻,看似是委屈自己,实则看清了一切
     推荐:

    comments

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    Security Code *:  Please input the number which is shown on the right picture
    The Captcha image  (Please input the number which is shown on the right picture)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站