Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_8c6b6dbc378bed3c45d1a23dc03c67de, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
直击GTC,老黄就指着你烧token了 | 温哥华地产中心
   

直击GTC,老黄就指着你烧token了

但今晚真正的新闻是第七颗芯片,Groq 3 LPU。去年圣诞夜英伟达花200亿美元拿下Groq的技术授权和核心团队,今天是首次产品落地,而且已经在量产。




为什么需要Groq?黄仁勋在台上讲得很清楚,GPU擅长高吞吐的并行计算,做prefill和attention很强,但在超高速token生成这个区间会力不从心。他的原话是NVL72在超过400 tokens/s/user的区间“runs out of steam”(跑不动了)。而Groq的LPU是一种完全不同的处理器,确定性数据流架构,芯片上全是SRAM,没有运行时动态调度,编译器在编译阶段就把每个时钟周期的计算和数据搬运全部排好了。这种架构天然适合低延迟的decode和token生成。

问题在于SRAM虽快但容量极小。单颗Groq 3 LPU只有500MB SRAM,而Rubin GPU是288GB HBM4,差了500多倍,根本存不下万亿参数的模型。英伟达的解法是用一套叫Dynamo的软件把推理过程拆成两半,Rubin负责prefill和attention,处理上下文需要大量算力和大容量内存;Groq负责feed-forward部分的decode和token生成,需要极低延迟和极高带宽。两者通过以太网紧耦合,延迟减半。

黄仁勋管这个叫disaggregated inference(解耦推理),并且总结说高吞吐和低延迟本质上enemies of each other(彼此矛盾),而Groq就是解决这个矛盾的那一半拼图。



舞台上的那张对比图视觉冲击很强。

左边一颗Rubin GPU,288GB HBM4、22TB/s带宽、50 PFLOPs。


右边一排8颗Groq 3 LPU组成的阵列,4GB SRAM、1,200TB/s SRAM带宽(Rubin的55倍)、9.6 PFLOPs。

两种极端的处理器,统一成一个推理系统。Groq 3 LPX整机把256颗LPU装进一个机架,提供128GB SRAM、40PB/s带宽、315 PFLOPS推理算力和640TB/s互连带宽。



[加西网正招聘多名全职sales 待遇优]
还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站