亚马逊技术大会强势来袭:自研芯片性能暴增4.4倍
AWS表示,Trainium 3有望将AI模型全生命周期(训练+推理)成本整体降低50%,在当前算力市场极具竞争力。在英伟达GPU长期占据绝对主导、价格居高不下的背景下,Trainium 3为企业提供了真正可落地的性价比替代方案。
架构层面,Trainium 3单芯片提供2.52 PFLOPs(FP8)算力,支持FP32、BF16、MXFP8及新增MXFP4等多种精度格式。为解决大语言模型最突出的内存瓶颈,该芯片将HBM3e内存容量提升至144GB、带宽提升至4.9TB/s,同时强化结构化稀疏性和微缩放硬件支持,进一步优化大语言模型训练与推理效率。
得益于全新一代Neuron Fabric互联技术,单台Trn3 UltraServer可集成144张芯片,总算力达362 FP8 PFLOPs;通过EC2 UltraClusters 3.0架构,可扩展至最高100万张芯片的超级集群,规模较上一代提升10倍,已为Anthropic的“Project Rainier”项目提供核心算力支撑(目前已部署50万张Trainium 2,计划年底前扩容至100万张)。Karakuri、Metagenomi、NetoAI等客户反馈,使用 Trainium 3后训练与推理成本最高降低 50%,充分验证了其在真实生产环境中的成本优势。

AWS提前披露Trainium 4关键特性
更具深远影响的是,AWS提前披露了Trainium 4的关键特性:将原生支持英伟达NVLink Fusion高速互联技术,彻底打破云厂商自研芯片长期以来的“封闭生态”惯例,展现出“共存并竞争”的务实策略。目前全球约80%的AI应用基于英伟达CUDA生态开发,迁移成本极高。兼容NVLink Fusion后,企业可在同一集群内灵活混搭Trainium与英伟达GPU,按需分配任务(如训练用GPU、推理用Trainium),大幅降低迁移门槛。
Trainium 4预计FP8算力提升3倍、FP4算力提升6倍,内存带宽与容量分别提升4倍和2倍,并将与Graviton CPU、EFA网络及英伟达MGX机架深度融合。这一“以开放换市场”的举措,被业界视为 Trainium系列真正实现规模化普及的转折点。
02.基础设施延伸:AI工厂落地主权云,混合部署一举破解全球合规难题

随着AI深入政府、金融、医疗等高敏感行业,数据主权与合规性已成为全球性瓶颈。欧盟GDPR、美国国防与医疗安全审查等政策使得纯公有云难以满足要求。AWS此次推出AI工厂服务,将全栈AI能力从公有云完整延伸至客户本地或指定区域,快速构建功能等同于私有AWS区域的专属环境。
通过AI工厂,客户可实现数据本地化处理与存储,100%满足数据主权与行业合规要求,AWS负责基础设施全生命周期的部署、运维与升级,彻底解决传统私有云“部署难、维护贵”的问题。结合Trainium芯片、英伟达加速卡、高性能网络以及Bedrock、SageMaker等全套服务,AI工厂将私有云部署周期从数年缩短至数月。AWS同时宣布未来几年投资500亿美元建设美国政府专用高性能计算与AI数据中心,投入规模远超同行。
[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
架构层面,Trainium 3单芯片提供2.52 PFLOPs(FP8)算力,支持FP32、BF16、MXFP8及新增MXFP4等多种精度格式。为解决大语言模型最突出的内存瓶颈,该芯片将HBM3e内存容量提升至144GB、带宽提升至4.9TB/s,同时强化结构化稀疏性和微缩放硬件支持,进一步优化大语言模型训练与推理效率。
得益于全新一代Neuron Fabric互联技术,单台Trn3 UltraServer可集成144张芯片,总算力达362 FP8 PFLOPs;通过EC2 UltraClusters 3.0架构,可扩展至最高100万张芯片的超级集群,规模较上一代提升10倍,已为Anthropic的“Project Rainier”项目提供核心算力支撑(目前已部署50万张Trainium 2,计划年底前扩容至100万张)。Karakuri、Metagenomi、NetoAI等客户反馈,使用 Trainium 3后训练与推理成本最高降低 50%,充分验证了其在真实生产环境中的成本优势。

AWS提前披露Trainium 4关键特性
更具深远影响的是,AWS提前披露了Trainium 4的关键特性:将原生支持英伟达NVLink Fusion高速互联技术,彻底打破云厂商自研芯片长期以来的“封闭生态”惯例,展现出“共存并竞争”的务实策略。目前全球约80%的AI应用基于英伟达CUDA生态开发,迁移成本极高。兼容NVLink Fusion后,企业可在同一集群内灵活混搭Trainium与英伟达GPU,按需分配任务(如训练用GPU、推理用Trainium),大幅降低迁移门槛。
Trainium 4预计FP8算力提升3倍、FP4算力提升6倍,内存带宽与容量分别提升4倍和2倍,并将与Graviton CPU、EFA网络及英伟达MGX机架深度融合。这一“以开放换市场”的举措,被业界视为 Trainium系列真正实现规模化普及的转折点。
02.基础设施延伸:AI工厂落地主权云,混合部署一举破解全球合规难题

随着AI深入政府、金融、医疗等高敏感行业,数据主权与合规性已成为全球性瓶颈。欧盟GDPR、美国国防与医疗安全审查等政策使得纯公有云难以满足要求。AWS此次推出AI工厂服务,将全栈AI能力从公有云完整延伸至客户本地或指定区域,快速构建功能等同于私有AWS区域的专属环境。
通过AI工厂,客户可实现数据本地化处理与存储,100%满足数据主权与行业合规要求,AWS负责基础设施全生命周期的部署、运维与升级,彻底解决传统私有云“部署难、维护贵”的问题。结合Trainium芯片、英伟达加速卡、高性能网络以及Bedrock、SageMaker等全套服务,AI工厂将私有云部署周期从数年缩短至数月。AWS同时宣布未来几年投资500亿美元建设美国政府专用高性能计算与AI数据中心,投入规模远超同行。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
亚马逊技术大会强势来袭:自研芯片性能暴增4.4倍