直击GTC,老黄就指着你烧token了

2026-03-17 | 来源: 硅星人 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

但今晚真正的新闻是第七颗芯片，Groq 3 LPU。去年圣诞夜英伟达花200亿美元拿下Groq的技术授权和核心团队，今天是首次产品落地，而且已经在量产。

为什么需要Groq？黄仁勋在台上讲得很清楚，GPU擅长高吞吐的并行计算，做prefill和attention很强，但在超高速token生成这个区间会力不从心。他的原话是NVL72在超过400 tokens/s/user的区间“runs out of steam”（跑不动了）。而Groq的LPU是一种完全不同的处理器，确定性数据流架构，芯片上全是SRAM，没有运行时动态调度，编译器在编译阶段就把每个时钟周期的计算和数据搬运全部排好了。这种架构天然适合低延迟的decode和token生成。

问题在于SRAM虽快但容量极小。单颗Groq 3 LPU只有500MB SRAM，而Rubin GPU是288GB HBM4，差了500多倍，根本存不下万亿参数的模型。英伟达的解法是用一套叫Dynamo的软件把推理过程拆成两半，Rubin负责prefill和attention，处理上下文需要大量算力和大容量内存；Groq负责feed-forward部分的decode和token生成，需要极低延迟和极高带宽。两者通过以太网紧耦合，延迟减半。

黄仁勋管这个叫disaggregated inference（解耦推理），并且总结说高吞吐和低延迟本质上enemies of each other（彼此矛盾），而Groq就是解决这个矛盾的那一半拼图。

舞台上的那张对比图视觉冲击很强。

左边一颗Rubin GPU，288GB HBM4、22TB/s带宽、50 PFLOPs。

右边一排8颗Groq 3 LPU组成的阵列，4GB SRAM、1,200TB/s SRAM带宽（Rubin的55倍）、9.6 PFLOPs。

两种极端的处理器，统一成一个推理系统。Groq 3 LPX整机把256颗LPU装进一个机架，提供128GB SRAM、40PB/s带宽、315 PFLOPS推理算力和640TB/s互连带宽。

[加西网正招聘多名全职sales 待遇优] 还没人说话啊，我想来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

直击GTC,老黄就指着你烧token了

意见