[谷歌] 壹文讀懂谷歌TPU:英偉達暴跌跟它有關
單芯片層面,Ironwood的FP8稠密算力達到4.6 petaFLOPS,略高於Nvidia B200的4.5 petaFLOPS,已躋身全球旗艦加速器第壹梯隊。內存配置為192GB HBM3e,帶寬7.4 TB/s,與B200的192GB/8 TB/s僅壹步之遙。芯片間通信帶寬9.6 Tbps,雖數字上不及Blackwell的14.4 Tbps,但谷歌走的是壹條完全不同的系統級道路,單純數值對比已失去意義。
真正讓Ironwood成為裡程碑的,是其超大規模擴展能力。
壹個Ironwood Pod可集成9216顆芯片,構成壹個超節點,FP8峰值性能超過42.5 exaFLOPS。谷歌在技術文檔中指出,在特定FP8負載下,該Pod性能相當於最接近競品系統的118倍。這不是單芯片差距,而是系統架構與拓撲設計的碾壓。
支撐這壹規模的核心,是谷歌拾年磨壹劍的2D/3D環面拓撲結合光路交換(OCS)網絡。
與英偉達依賴NVLink+高階交換機構建的NVL72(僅72顆GPU)不同,谷歌從根本上放棄了傳統交換機為中心的設計,轉而用叁維環面拓撲結構直接連接所有芯片,並通過OCS實現動態光路重構。
OCS本質上是壹套“光版人工電話交換台”,利用MEMS微鏡在毫秒級完成光信號物理切換,幾乎不引入額外延遲,更重要的是,當集群內出現芯片故障時,OCS能瞬間繞開壞點,保持整個計算域不中斷。
得益於此,谷歌液冷Ironwood系統的年可用性達到99.999%,即全年停機時間不到六分鍾。這壹數字在超大規模AI集群中堪稱恐怖,遠超業界基於GPU的訓練集群常見水平。
谷歌已將TPU集群從“實驗玩具”徹底升級為“數據中心命脈”。
在推理場景下,Ironwood展現出系統級的降維打擊能力。整個節點提供1.77 PB高帶寬HBM,所有芯片均可近乎等距訪問,這對KV緩存管理至關重要。推理時代最貴的不是算力,而是內存帶寬和緩存命中率,Ironwood通過共享巨量高速內存和極低通信開銷,大幅減少重復計算。
內部實測顯示,同等負載下Ironwood的推理成本較GPU旗艦系統低30%-40%,極端場景下更高。
軟件層面同樣火力全開。MaxText框架全面支持最新訓練與推理技術,GKE拓撲感知調度可根據Pod內實時狀態智能分配任務,推理網關支持前綴緩存感知路由。綜合優化後,首Token延遲最高下降96%,整體推理成本再降30%。
Ironwood不僅推動Gemini系列繼續領跑,也直接撬動外部生態。
Anthropic宣布未來Claude系列的訓練與部署將使用多達壹百萬顆TPU。即使擁有AWS Trainium等備選方案的玩家,也無法忽視Ironwood在超大規模推理上的代際優勢。
03 谷歌、英偉達、亞馬遜,站在“叁岔路口”

CNBC在對AI芯片領域叁大玩家——谷歌、英偉達和亞馬遜——進行分析後指出,叁者都在大規模投入研發,但它們追求的目標、商業模式、生態構建方式、硬件哲學均有顯著不同。
這些差異深刻影響了芯片的形態、性能側重點、客戶采用路徑以及市場地位。
英偉達的路線始終圍繞GPU推進,而GPU的核心價值在於通用性。
GPU具備海量並行計算單元,能夠支持從深度學習到圖形渲染再到科學計算等多種工作負載。更重要的是CUDA生態幾乎鎖死了全行業的開發路徑,壹旦模型或框架為CUDA優化,就很難切換到其他芯片架構。
英偉達通過軟硬件深度捆綁實現了類似蘋果生態在消費品市場的壟斷能力,但GPU的缺陷也拾分明顯。
首先,GPU並非為推理優化,它的設計初衷是高速並行計算,而不是以最低成本執行重復推理指令。其次,GPU的靈活性意味著其硬件資源在實際推理場景中可能並非最優配置,導致單位能耗的效率不如ASIC。最後,英偉達的定價權極高,雲廠商往往需要以遠高於制造成本的價格購入GPU,形成今天廣為人知的“英偉達稅”。
[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
真正讓Ironwood成為裡程碑的,是其超大規模擴展能力。
壹個Ironwood Pod可集成9216顆芯片,構成壹個超節點,FP8峰值性能超過42.5 exaFLOPS。谷歌在技術文檔中指出,在特定FP8負載下,該Pod性能相當於最接近競品系統的118倍。這不是單芯片差距,而是系統架構與拓撲設計的碾壓。
支撐這壹規模的核心,是谷歌拾年磨壹劍的2D/3D環面拓撲結合光路交換(OCS)網絡。
與英偉達依賴NVLink+高階交換機構建的NVL72(僅72顆GPU)不同,谷歌從根本上放棄了傳統交換機為中心的設計,轉而用叁維環面拓撲結構直接連接所有芯片,並通過OCS實現動態光路重構。
OCS本質上是壹套“光版人工電話交換台”,利用MEMS微鏡在毫秒級完成光信號物理切換,幾乎不引入額外延遲,更重要的是,當集群內出現芯片故障時,OCS能瞬間繞開壞點,保持整個計算域不中斷。
得益於此,谷歌液冷Ironwood系統的年可用性達到99.999%,即全年停機時間不到六分鍾。這壹數字在超大規模AI集群中堪稱恐怖,遠超業界基於GPU的訓練集群常見水平。
谷歌已將TPU集群從“實驗玩具”徹底升級為“數據中心命脈”。
在推理場景下,Ironwood展現出系統級的降維打擊能力。整個節點提供1.77 PB高帶寬HBM,所有芯片均可近乎等距訪問,這對KV緩存管理至關重要。推理時代最貴的不是算力,而是內存帶寬和緩存命中率,Ironwood通過共享巨量高速內存和極低通信開銷,大幅減少重復計算。
內部實測顯示,同等負載下Ironwood的推理成本較GPU旗艦系統低30%-40%,極端場景下更高。
軟件層面同樣火力全開。MaxText框架全面支持最新訓練與推理技術,GKE拓撲感知調度可根據Pod內實時狀態智能分配任務,推理網關支持前綴緩存感知路由。綜合優化後,首Token延遲最高下降96%,整體推理成本再降30%。
Ironwood不僅推動Gemini系列繼續領跑,也直接撬動外部生態。
Anthropic宣布未來Claude系列的訓練與部署將使用多達壹百萬顆TPU。即使擁有AWS Trainium等備選方案的玩家,也無法忽視Ironwood在超大規模推理上的代際優勢。
03 谷歌、英偉達、亞馬遜,站在“叁岔路口”

CNBC在對AI芯片領域叁大玩家——谷歌、英偉達和亞馬遜——進行分析後指出,叁者都在大規模投入研發,但它們追求的目標、商業模式、生態構建方式、硬件哲學均有顯著不同。
這些差異深刻影響了芯片的形態、性能側重點、客戶采用路徑以及市場地位。
英偉達的路線始終圍繞GPU推進,而GPU的核心價值在於通用性。
GPU具備海量並行計算單元,能夠支持從深度學習到圖形渲染再到科學計算等多種工作負載。更重要的是CUDA生態幾乎鎖死了全行業的開發路徑,壹旦模型或框架為CUDA優化,就很難切換到其他芯片架構。
英偉達通過軟硬件深度捆綁實現了類似蘋果生態在消費品市場的壟斷能力,但GPU的缺陷也拾分明顯。
首先,GPU並非為推理優化,它的設計初衷是高速並行計算,而不是以最低成本執行重復推理指令。其次,GPU的靈活性意味著其硬件資源在實際推理場景中可能並非最優配置,導致單位能耗的效率不如ASIC。最後,英偉達的定價權極高,雲廠商往往需要以遠高於制造成本的價格購入GPU,形成今天廣為人知的“英偉達稅”。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦: