[谷歌] 一文读懂谷歌TPU:英伟达暴跌跟它有关
2017年Transformer论文发表后,谷歌几乎在同一时间意识到:这个新架构的计算模式高度规则、矩阵密度极高、并行度惊人,简直是为TPU量身定做的。与其让外部硬件厂商慢慢跟进,不如自己把软件框架、编译器、芯片架构、网络拓扑、散热系统全部握在手里,形成全栈闭环。
于是,TPU不再是一个孤立的芯片,而升级为谷歌AI基础设施的底座:既要训练出世界最强的模型,也要让AI以最低成本渗透到公司每一条产品线。
从v2、v3开始,谷歌逐步开放TPU给谷歌云客户,正式进入商业化阶段。
虽然早期生态和兼容性仍逊于GPU,但谷歌用XLA编译器、高效Pod架构、液冷数据中心、软硬件深度共设计,硬生生蹚出一条差异化道路。
2021年,TPU v4横空出世,第一次把4096颗芯片组成一个超节点,靠自研的环形拓扑网络(2D/3D torus)实现近乎无损的跨芯片通信。这套系统让数千颗加速器像一颗“巨型芯片”一样协同工作,直接把谷歌带入超大规模AI时代,PaLM 540B模型正是在v4 Pod上训练完成的。
谷歌用实际行动证明:只要集群规模够大、互联效率够高,模型性能就会随着计算量近乎线性增长,而TPU的网络拓扑和调度系统,正是实现这一规律的最关键硬件支撑。
2023到2024年,TPU v5p成为转折点。
它首次大规模进入谷歌广告系统、搜索核心排序、YouTube推荐、地图实时预测等赚钱产品线,性能较v4翻倍,同时推出弹性节点架构,让企业客户可以按需扩展到近9000颗芯片的规模。
Meta、Anthropic等头部模型公司开始认真评估并采购TPU v5p,这标志着TPU终于从“内部黑科技”成长为“生态可选项”。
2024年发布的第六代TPU v6(代号Trillium)则彻底亮明态度:谷歌未来的主战场不再是训练,而是推理。推理成本正在成为全球AI公司最大的单项支出,v6从架构到指令集全部围绕推理负载重新设计,FP8吞吐暴涨、片上SRAM容量翻倍、KV Cache访问模式深度优化、芯片间带宽大幅提升,能效比上一代提升67%。
谷歌公开表示,这一代TPU的目标是成为“推理时代最省钱的商业引擎”。
从2015年为了解决AI计算的效率瓶颈被迫自研,到2025年即将把TPU部署到客户自有数据中心,谷歌用十年时间,把一个“不得不做的救命项目”,一步步打造成可能撼动英伟达霸权的战略级武器。
TPU从来不是为了和谁比性能,而是为了让AI真正跑得起、赚得到钱。这正是谷歌与众不同的打法,也是它最可怕的地方。
02 从“实验项目”到“数据中心命脉”

TPU v7,代号Ironwood
2025年,谷歌推出的第七代TPU(TPU v7,代号Ironwood)成为全球AI基础设施领域最受关注的硬件产品。
这一代在架构、规模、可靠性、网络与软件系统上的一次全面重构。
Ironwood的诞生,正式宣告TPU从“追赶者时代”迈入“进攻时代”,也标志着谷歌将推理时代视为未来十年的决战主战场。
Ironwood之所以特殊,首先在于它是TPU历史上第一款专用推理芯片。与此前以训练为主的v5p和以能效为主的v6e不同,Ironwood从第一天起就锁定超大规模在线推理这一终极场景,并在多项关键指标上首次与英伟达Blackwell系列实现正面交锋。
[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
于是,TPU不再是一个孤立的芯片,而升级为谷歌AI基础设施的底座:既要训练出世界最强的模型,也要让AI以最低成本渗透到公司每一条产品线。
从v2、v3开始,谷歌逐步开放TPU给谷歌云客户,正式进入商业化阶段。
虽然早期生态和兼容性仍逊于GPU,但谷歌用XLA编译器、高效Pod架构、液冷数据中心、软硬件深度共设计,硬生生蹚出一条差异化道路。
2021年,TPU v4横空出世,第一次把4096颗芯片组成一个超节点,靠自研的环形拓扑网络(2D/3D torus)实现近乎无损的跨芯片通信。这套系统让数千颗加速器像一颗“巨型芯片”一样协同工作,直接把谷歌带入超大规模AI时代,PaLM 540B模型正是在v4 Pod上训练完成的。
谷歌用实际行动证明:只要集群规模够大、互联效率够高,模型性能就会随着计算量近乎线性增长,而TPU的网络拓扑和调度系统,正是实现这一规律的最关键硬件支撑。
2023到2024年,TPU v5p成为转折点。
它首次大规模进入谷歌广告系统、搜索核心排序、YouTube推荐、地图实时预测等赚钱产品线,性能较v4翻倍,同时推出弹性节点架构,让企业客户可以按需扩展到近9000颗芯片的规模。
Meta、Anthropic等头部模型公司开始认真评估并采购TPU v5p,这标志着TPU终于从“内部黑科技”成长为“生态可选项”。
2024年发布的第六代TPU v6(代号Trillium)则彻底亮明态度:谷歌未来的主战场不再是训练,而是推理。推理成本正在成为全球AI公司最大的单项支出,v6从架构到指令集全部围绕推理负载重新设计,FP8吞吐暴涨、片上SRAM容量翻倍、KV Cache访问模式深度优化、芯片间带宽大幅提升,能效比上一代提升67%。
谷歌公开表示,这一代TPU的目标是成为“推理时代最省钱的商业引擎”。
从2015年为了解决AI计算的效率瓶颈被迫自研,到2025年即将把TPU部署到客户自有数据中心,谷歌用十年时间,把一个“不得不做的救命项目”,一步步打造成可能撼动英伟达霸权的战略级武器。
TPU从来不是为了和谁比性能,而是为了让AI真正跑得起、赚得到钱。这正是谷歌与众不同的打法,也是它最可怕的地方。
02 从“实验项目”到“数据中心命脉”

TPU v7,代号Ironwood
2025年,谷歌推出的第七代TPU(TPU v7,代号Ironwood)成为全球AI基础设施领域最受关注的硬件产品。
这一代在架构、规模、可靠性、网络与软件系统上的一次全面重构。
Ironwood的诞生,正式宣告TPU从“追赶者时代”迈入“进攻时代”,也标志着谷歌将推理时代视为未来十年的决战主战场。
Ironwood之所以特殊,首先在于它是TPU历史上第一款专用推理芯片。与此前以训练为主的v5p和以能效为主的v6e不同,Ironwood从第一天起就锁定超大规模在线推理这一终极场景,并在多项关键指标上首次与英伟达Blackwell系列实现正面交锋。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐:



