[谷歌] 一文读懂谷歌TPU:英伟达暴跌跟它有关
单芯片层面,Ironwood的FP8稠密算力达到4.6 petaFLOPS,略高于Nvidia B200的4.5 petaFLOPS,已跻身全球旗舰加速器第一梯队。内存配置为192GB HBM3e,带宽7.4 TB/s,与B200的192GB/8 TB/s仅一步之遥。芯片间通信带宽9.6 Tbps,虽数字上不及Blackwell的14.4 Tbps,但谷歌走的是一条完全不同的系统级道路,单纯数值对比已失去意义。
真正让Ironwood成为里程碑的,是其超大规模扩展能力。
一个Ironwood Pod可集成9216颗芯片,构成一个超节点,FP8峰值性能超过42.5 exaFLOPS。谷歌在技术文档中指出,在特定FP8负载下,该Pod性能相当于最接近竞品系统的118倍。这不是单芯片差距,而是系统架构与拓扑设计的碾压。
支撑这一规模的核心,是谷歌十年磨一剑的2D/3D环面拓扑结合光路交换(OCS)网络。
与英伟达依赖NVLink+高阶交换机构建的NVL72(仅72颗GPU)不同,谷歌从根本上放弃了传统交换机为中心的设计,转而用三维环面拓扑结构直接连接所有芯片,并通过OCS实现动态光路重构。
OCS本质上是一套“光版人工电话交换台”,利用MEMS微镜在毫秒级完成光信号物理切换,几乎不引入额外延迟,更重要的是,当集群内出现芯片故障时,OCS能瞬间绕开坏点,保持整个计算域不中断。
得益于此,谷歌液冷Ironwood系统的年可用性达到99.999%,即全年停机时间不到六分钟。这一数字在超大规模AI集群中堪称恐怖,远超业界基于GPU的训练集群常见水平。
谷歌已将TPU集群从“实验玩具”彻底升级为“数据中心命脉”。
在推理场景下,Ironwood展现出系统级的降维打击能力。整个节点提供1.77 PB高带宽HBM,所有芯片均可近乎等距访问,这对KV缓存管理至关重要。推理时代最贵的不是算力,而是内存带宽和缓存命中率,Ironwood通过共享巨量高速内存和极低通信开销,大幅减少重复计算。
内部实测显示,同等负载下Ironwood的推理成本较GPU旗舰系统低30%-40%,极端场景下更高。
软件层面同样火力全开。MaxText框架全面支持最新训练与推理技术,GKE拓扑感知调度可根据Pod内实时状态智能分配任务,推理网关支持前缀缓存感知路由。综合优化后,首Token延迟最高下降96%,整体推理成本再降30%。
Ironwood不仅推动Gemini系列继续领跑,也直接撬动外部生态。
Anthropic宣布未来Claude系列的训练与部署将使用多达一百万颗TPU。即使拥有AWS Trainium等备选方案的玩家,也无法忽视Ironwood在超大规模推理上的代际优势。
03 谷歌、英伟达、亚马逊,站在“三岔路口”

CNBC在对AI芯片领域三大玩家——谷歌、英伟达和亚马逊——进行分析后指出,三者都在大规模投入研发,但它们追求的目标、商业模式、生态构建方式、硬件哲学均有显着不同。
这些差异深刻影响了芯片的形态、性能侧重点、客户采用路径以及市场地位。
英伟达的路线始终围绕GPU推进,而GPU的核心价值在于通用性。
GPU具备海量并行计算单元,能够支持从深度学习到图形渲染再到科学计算等多种工作负载。更重要的是CUDA生态几乎锁死了全行业的开发路径,一旦模型或框架为CUDA优化,就很难切换到其他芯片架构。
英伟达通过软硬件深度捆绑实现了类似苹果生态在消费品市场的垄断能力,但GPU的缺陷也十分明显。
首先,GPU并非为推理优化,它的设计初衷是高速并行计算,而不是以最低成本执行重复推理指令。其次,GPU的灵活性意味着其硬件资源在实际推理场景中可能并非最优配置,导致单位能耗的效率不如ASIC。最后,英伟达的定价权极高,云厂商往往需要以远高于制造成本的价格购入GPU,形成今天广为人知的“英伟达税”。
[物价飞涨的时候 这样省钱购物很爽]
这条新闻还没有人评论喔,等着您的高见呢
真正让Ironwood成为里程碑的,是其超大规模扩展能力。
一个Ironwood Pod可集成9216颗芯片,构成一个超节点,FP8峰值性能超过42.5 exaFLOPS。谷歌在技术文档中指出,在特定FP8负载下,该Pod性能相当于最接近竞品系统的118倍。这不是单芯片差距,而是系统架构与拓扑设计的碾压。
支撑这一规模的核心,是谷歌十年磨一剑的2D/3D环面拓扑结合光路交换(OCS)网络。
与英伟达依赖NVLink+高阶交换机构建的NVL72(仅72颗GPU)不同,谷歌从根本上放弃了传统交换机为中心的设计,转而用三维环面拓扑结构直接连接所有芯片,并通过OCS实现动态光路重构。
OCS本质上是一套“光版人工电话交换台”,利用MEMS微镜在毫秒级完成光信号物理切换,几乎不引入额外延迟,更重要的是,当集群内出现芯片故障时,OCS能瞬间绕开坏点,保持整个计算域不中断。
得益于此,谷歌液冷Ironwood系统的年可用性达到99.999%,即全年停机时间不到六分钟。这一数字在超大规模AI集群中堪称恐怖,远超业界基于GPU的训练集群常见水平。
谷歌已将TPU集群从“实验玩具”彻底升级为“数据中心命脉”。
在推理场景下,Ironwood展现出系统级的降维打击能力。整个节点提供1.77 PB高带宽HBM,所有芯片均可近乎等距访问,这对KV缓存管理至关重要。推理时代最贵的不是算力,而是内存带宽和缓存命中率,Ironwood通过共享巨量高速内存和极低通信开销,大幅减少重复计算。
内部实测显示,同等负载下Ironwood的推理成本较GPU旗舰系统低30%-40%,极端场景下更高。
软件层面同样火力全开。MaxText框架全面支持最新训练与推理技术,GKE拓扑感知调度可根据Pod内实时状态智能分配任务,推理网关支持前缀缓存感知路由。综合优化后,首Token延迟最高下降96%,整体推理成本再降30%。
Ironwood不仅推动Gemini系列继续领跑,也直接撬动外部生态。
Anthropic宣布未来Claude系列的训练与部署将使用多达一百万颗TPU。即使拥有AWS Trainium等备选方案的玩家,也无法忽视Ironwood在超大规模推理上的代际优势。
03 谷歌、英伟达、亚马逊,站在“三岔路口”

CNBC在对AI芯片领域三大玩家——谷歌、英伟达和亚马逊——进行分析后指出,三者都在大规模投入研发,但它们追求的目标、商业模式、生态构建方式、硬件哲学均有显着不同。
这些差异深刻影响了芯片的形态、性能侧重点、客户采用路径以及市场地位。
英伟达的路线始终围绕GPU推进,而GPU的核心价值在于通用性。
GPU具备海量并行计算单元,能够支持从深度学习到图形渲染再到科学计算等多种工作负载。更重要的是CUDA生态几乎锁死了全行业的开发路径,一旦模型或框架为CUDA优化,就很难切换到其他芯片架构。
英伟达通过软硬件深度捆绑实现了类似苹果生态在消费品市场的垄断能力,但GPU的缺陷也十分明显。
首先,GPU并非为推理优化,它的设计初衷是高速并行计算,而不是以最低成本执行重复推理指令。其次,GPU的灵活性意味着其硬件资源在实际推理场景中可能并非最优配置,导致单位能耗的效率不如ASIC。最后,英伟达的定价权极高,云厂商往往需要以远高于制造成本的价格购入GPU,形成今天广为人知的“英伟达税”。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐:



