Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_308e2df3f4232ad08e1c5ca6c7314ec4, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
壹文讀懂谷歌TPU:英偉達暴跌跟它有關 | 溫哥華教育中心
   

[谷歌] 壹文讀懂谷歌TPU:英偉達暴跌跟它有關




Alphabet兼谷歌首席執行官桑達爾·皮查伊

文丨無忌

編輯丨蘇揚

股價“跌跌不休”,英偉達都不得不站出來表態,“我們領先了全行業壹代”。

事情要從巴菲特“謝幕之作”說起——伯克希爾·哈撒韋公司首次建倉谷歌母公司Alphabet股票,隨後更勁爆的是市場又傳出英偉達大客戶Meta考慮2027年在其數據中心部署谷歌TPU,並於2026年通過谷歌雲租用TPU算力。

英偉達在緊急聲明中,強調GPU在性能、通用性和可移植性方面“遠優於”ASIC(專用集成電路),並重申自研TPU無法替代 GPU的靈活性。谷歌發言人也表示繼續和英偉達保持合作關系,並強調公司致力於同時支持TPU和英偉達GPU。

TPU,從壹個10年前為了解決AI計算效率瓶頸的“救命項目”,如今已經發展成為谷歌的“經濟支柱”。

作為自研ASIC芯片的代表,TPU已經具備動搖英偉達根基的潛力,只不過谷歌的邏輯不是和英偉達比單卡性能,而是在用壹套完全不同的超大規模系統哲學,重新定義AI基礎設施的未來。

壹切都要從10年前,TPU誕生的那壹刻說起。

01 TPU的前世今生



TPU v1

谷歌在2015年啟動TPU項目,這並非出於炫技,更不是為了彰顯技術實力,而是被逼入了壹個“不自研將難以支撐未來業務規模”的現實。

隨著深度學習在谷歌內部的應用不斷擴散,谷歌工程團隊當時意識到壹個關鍵問題正在逼近——包括搜索、廣告等谷歌核心服務都涉及巨量用戶請求,如果全面采用深度學習模型,那麼谷歌全球數據中心的功耗將暴漲至難以承受的程度,即使采購再多GPU也無法滿足需求,更不用說成本上的激增。

彼時GPU更適合訓練大規模神經網絡,但其能效並非針對實時在線推理設計。

谷歌內部甚至出現過預測:如果未來所有核心業務上線深度模型,全球數據中心的電力成本會增長拾倍。內部高層意識到,繼續依賴 CPU和GPU的現有路線不可持續。

因此,谷歌決定自研ASIC加速器,目標不是造壹個“最強通用芯片”,而是造壹個“可大量部署在數據中心、用於特定矩陣運算的高能效芯片”。

最終,TPU v1在2016年正式投入使用,用於支持谷歌翻譯以及部分搜索功能,證明了ASIC方案具備可行性。

2017年Transformer論文發表後,谷歌幾乎在同壹時間意識到:這個新架構的計算模式高度規則、矩陣密度極高、並行度驚人,簡直是為TPU量身定做的。與其讓外部硬件廠商慢慢跟進,不如自己把軟件框架、編譯器、芯片架構、網絡拓撲、散熱系統全部握在手裡,形成全棧閉環。

於是,TPU不再是壹個孤立的芯片,而升級為谷歌AI基礎設施的底座:既要訓練出世界最強的模型,也要讓AI以最低成本滲透到公司每壹條產品線。

從v2、v3開始,谷歌逐步開放TPU給谷歌雲客戶,正式進入商業化階段。

雖然早期生態和兼容性仍遜於GPU,但谷歌用XLA編譯器、高效Pod架構、液冷數據中心、軟硬件深度共設計,硬生生蹚出壹條差異化道路。

2021年,TPU v4橫空出世,第壹次把4096顆芯片組成壹個超節點,靠自研的環形拓撲網絡(2D/3D torus)實現近乎無損的跨芯片通信。這套系統讓數千顆加速器像壹顆“巨型芯片”壹樣協同工作,直接把谷歌帶入超大規模AI時代,PaLM 540B模型正是在v4 Pod上訓練完成的。

谷歌用實際行動證明:只要集群規模夠大、互聯效率夠高,模型性能就會隨著計算量近乎線性增長,而TPU的網絡拓撲和調度系統,正是實現這壹規律的最關鍵硬件支撐。

2023到2024年,TPU v5p成為轉折點。

它首次大規模進入谷歌廣告系統、搜索核心排序、YouTube推薦、地圖實時預測等賺錢產品線,性能較v4翻倍,同時推出彈性節點架構,讓企業客戶可以按需擴展到近9000顆芯片的規模。

Meta、Anthropic等頭部模型公司開始認真評估並采購TPU v5p,這標志著TPU終於從“內部黑科技”成長為“生態可選項”。

2024年發布的第六代TPU v6(代號Trillium)則徹底亮明態度:谷歌未來的主戰場不再是訓練,而是推理。推理成本正在成為全球AI公司最大的單項支出,v6從架構到指令集全部圍繞推理負載重新設計,FP8吞吐暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優化、芯片間帶寬大幅提升,能效比上壹代提升67%。

谷歌公開表示,這壹代TPU的目標是成為“推理時代最省錢的商業引擎”。

從2015年為了解決AI計算的效率瓶頸被迫自研,到2025年即將把TPU部署到客戶自有數據中心,谷歌用拾年時間,把壹個“不得不做的救命項目”,壹步步打造成可能撼動英偉達霸權的戰略級武器。

TPU從來不是為了和誰比性能,而是為了讓AI真正跑得起、賺得到錢。這正是谷歌與眾不同的打法,也是它最可怕的地方。

02 從“實驗項目”到“數據中心命脈”



TPU v7,代號Ironwood

2025年,谷歌推出的第柒代TPU(TPU v7,代號Ironwood)成為全球AI基礎設施領域最受關注的硬件產品。

這壹代在架構、規模、可靠性、網絡與軟件系統上的壹次全面重構。

Ironwood的誕生,正式宣告TPU從“追趕者時代”邁入“進攻時代”,也標志著谷歌將推理時代視為未來拾年的決戰主戰場。

Ironwood之所以特殊,首先在於它是TPU歷史上第壹款專用推理芯片。與此前以訓練為主的v5p和以能效為主的v6e不同,Ironwood從第壹天起就鎖定超大規模在線推理這壹終極場景,並在多項關鍵指標上首次與英偉達Blackwell系列實現正面交鋒。

單芯片層面,Ironwood的FP8稠密算力達到4.6 petaFLOPS,略高於Nvidia B200的4.5 petaFLOPS,已躋身全球旗艦加速器第壹梯隊。內存配置為192GB HBM3e,帶寬7.4 TB/s,與B200的192GB/8 TB/s僅壹步之遙。芯片間通信帶寬9.6 Tbps,雖數字上不及Blackwell的14.4 Tbps,但谷歌走的是壹條完全不同的系統級道路,單純數值對比已失去意義。

真正讓Ironwood成為裡程碑的,是其超大規模擴展能力。

壹個Ironwood Pod可集成9216顆芯片,構成壹個超節點,FP8峰值性能超過42.5 exaFLOPS。谷歌在技術文檔中指出,在特定FP8負載下,該Pod性能相當於最接近競品系統的118倍。這不是單芯片差距,而是系統架構與拓撲設計的碾壓。

支撐這壹規模的核心,是谷歌拾年磨壹劍的2D/3D環面拓撲結合光路交換(OCS)網絡。

與英偉達依賴NVLink+高階交換機構建的NVL72(僅72顆GPU)不同,谷歌從根本上放棄了傳統交換機為中心的設計,轉而用叁維環面拓撲結構直接連接所有芯片,並通過OCS實現動態光路重構。

OCS本質上是壹套“光版人工電話交換台”,利用MEMS微鏡在毫秒級完成光信號物理切換,幾乎不引入額外延遲,更重要的是,當集群內出現芯片故障時,OCS能瞬間繞開壞點,保持整個計算域不中斷。

得益於此,谷歌液冷Ironwood系統的年可用性達到99.999%,即全年停機時間不到六分鍾。這壹數字在超大規模AI集群中堪稱恐怖,遠超業界基於GPU的訓練集群常見水平。

谷歌已將TPU集群從“實驗玩具”徹底升級為“數據中心命脈”。

在推理場景下,Ironwood展現出系統級的降維打擊能力。整個節點提供1.77 PB高帶寬HBM,所有芯片均可近乎等距訪問,這對KV緩存管理至關重要。推理時代最貴的不是算力,而是內存帶寬和緩存命中率,Ironwood通過共享巨量高速內存和極低通信開銷,大幅減少重復計算。

內部實測顯示,同等負載下Ironwood的推理成本較GPU旗艦系統低30%-40%,極端場景下更高。

軟件層面同樣火力全開。MaxText框架全面支持最新訓練與推理技術,GKE拓撲感知調度可根據Pod內實時狀態智能分配任務,推理網關支持前綴緩存感知路由。綜合優化後,首Token延遲最高下降96%,整體推理成本再降30%。

Ironwood不僅推動Gemini系列繼續領跑,也直接撬動外部生態。

Anthropic宣布未來Claude系列的訓練與部署將使用多達壹百萬顆TPU。即使擁有AWS Trainium等備選方案的玩家,也無法忽視Ironwood在超大規模推理上的代際優勢。

03 谷歌、英偉達、亞馬遜,站在“叁岔路口”



CNBC在對AI芯片領域叁大玩家——谷歌、英偉達和亞馬遜——進行分析後指出,叁者都在大規模投入研發,但它們追求的目標、商業模式、生態構建方式、硬件哲學均有顯著不同。

這些差異深刻影響了芯片的形態、性能側重點、客戶采用路徑以及市場地位。

英偉達的路線始終圍繞GPU推進,而GPU的核心價值在於通用性。

GPU具備海量並行計算單元,能夠支持從深度學習到圖形渲染再到科學計算等多種工作負載。更重要的是CUDA生態幾乎鎖死了全行業的開發路徑,壹旦模型或框架為CUDA優化,就很難切換到其他芯片架構。

英偉達通過軟硬件深度捆綁實現了類似蘋果生態在消費品市場的壟斷能力,但GPU的缺陷也拾分明顯。

首先,GPU並非為推理優化,它的設計初衷是高速並行計算,而不是以最低成本執行重復推理指令。其次,GPU的靈活性意味著其硬件資源在實際推理場景中可能並非最優配置,導致單位能耗的效率不如ASIC。最後,英偉達的定價權極高,雲廠商往往需要以遠高於制造成本的價格購入GPU,形成今天廣為人知的“英偉達稅”。

谷歌的路線與英偉達不同。谷歌並不追求硬件通用性,而是追求深度學習特別是Transformer負載的極致效率。TPU的核心是脈動陣列,這是壹種專門為矩陣乘法設計的架構,使其在深度學習計算中特別高效。

谷歌不是希望TPU成為行業通用芯片,而是成為全球AI推理和訓練最具效能的專用芯片,進而讓谷歌整個AI系統做到性能領先、成本最低、部署最廣。

谷歌的核心優勢在於全棧整合能力。他們不僅控制芯片,還控制模型、框架、編譯器、分布式訓練系統與數據中心基礎設施。這讓谷歌可以做出許多GPU無法實現的系統級優化。

例如數據中心網絡拓撲完全為TPU超節點服務,軟件層面的調度系統能根據模型特性自動調整硬件資源的使用方式。這種“系統級壹體化”是英偉達無法做到的,因為英偉達只能控制GPU,而不能控制客戶的數據中心。

亞馬遜則走了第叁條路線,其芯片戰略出發點是降低AWS的基礎設施成本,同時減少對外部供應商尤其是英偉達的依賴,因此他們開發了Trainium和Inferentia。


作為雲廠商,AWS關注的是規模效應與經濟性,而非像谷歌那樣構建壹個統壹的AI算力體系。

Trainium的設計更靈活,在不少情況下接近GPU的適配能力,但性能針對訓練和推理分別做了優化。Inferentia則聚焦推理,適合高吞吐部署場景。亞馬遜通過芯片降低內部成本並將節省部分反饋給客戶,從而提升AWS的競爭力。

總體而言,英偉達的路線是通用、生態驅動、軟件鎖定;谷歌的路線是專用、垂直整合、系統統壹;亞馬遜的路線是成本優化、雲驅動、兼容商業需求。叁者的路線差異導致了AI芯片市場中出現了截然不同的產品形式、商業策略與競爭格局。

04 利用TPU,告別昂貴的“CUDA稅”



谷歌之所以能夠在推理時代獲得顯著優勢,關鍵並不僅僅在於TPU的硬件性能,更在於其全棧垂直整合策略。

這種策略讓谷歌避免了昂貴的“CUDA稅”,並在成本結構上相對於OpenAI和其他依賴GPU的企業形成了巨大優勢。

所謂CUDA稅,是指GPU芯片從生產到銷售過程中所疊加的高額利潤。

英偉達的GPU成本大約僅幾千美元,但賣給雲廠商時價格往往動輒數萬美元不等,毛利率高達八成以上。全球所有訓練大模型的科技公司幾乎都要支付這項成本,並且無法擺脫。

OpenAI依賴英偉達GPU進行訓練和推理,且由於GPT系列模型參數規模巨大、推理量龐大,其總體算力開支遠超大多數企業的總營收。

英偉達的定價模式使這些公司無論怎麼優化模型,都難以實現規模化商業利潤。

谷歌的策略完全不同。谷歌采用自研TPU進行訓練和推理,整個供應鏈由谷歌控制,從芯片設計到制造、從網絡方案到軟件棧再到數據中心布局,全部由谷歌內部優化。

由於不需要支付英偉達稅,谷歌的算力成本結構天生比OpenAI更具優勢。

谷歌不僅在內部獲得低成本,還將這種成本優勢傳遞給谷歌雲的客戶。通過TPU服務,谷歌可以為客戶提供更低價格的推理能力,從而吸引大量模型公司和企業遷移到谷歌平台。

根據科技網站venturebeat.com的報道,谷歌在算力成本上的結構性優勢遠遠優於OpenAI。這意味著,谷歌提供同等推理服務時,其底層成本可能僅為對手的兩成。如此大的成本差異在推理時代具有決定性意義。

當企業的推理成本占到其支出的大部分時,遷移到成本最低的平台就成為必然選擇。例如,壹個企業每年可能在推理上消耗數千萬美元甚至上億美元,如果遷移到TPU可以節省叁到伍成成本,那麼遷移幾乎是壹種不可回避的商業決策。

谷歌還推出了TPU@Premises計劃,將TPU直接部署在企業數據中心,使客戶可以在本地以最低延遲使用推理能力。這再次強化了谷歌的成本優勢,進壹步擴大TPU的商業輻射范圍。

在OpenAI的商業模式中,其最重要的成本來自算力,而在谷歌的商業模式中,其算力成本是自研產品體系的壹部分,可以通過谷歌雲收回投資。谷歌在硬件、軟件、網絡和雲基礎設施上的深度融合,使其具備真正意義上的垂直整合能力。

這種整合不是簡單節省成本,而是在推動整個生態的重新配置。

隨著越來越多企業意識到推理成本的重要性,谷歌的成本優勢將不斷被放大,TPU的市場份額也將在推理時代獲得更快增長。TPU的垂直整合策略最終不僅是谷歌的競爭策略,更是對整個行業競爭秩序的重塑力量。

05 谷歌的“經濟支柱”

回顧TPU的發展史,可以看到壹個典型的“追趕到領先”的演變軌跡。

早期TPU在生態成熟度、兼容性和訓練性能方面落後於GPU,外界普遍認為谷歌在AI大模型時代被OpenA 超越。然而這種外部印象忽略了谷歌在基礎設施層面的深度積累,也忽略了谷歌在全棧系統上的獨特優勢。

隨著Gemini系列模型逐代升級,谷歌逐步證明自己仍然是全球少數可以實現訓練穩定性、推理成本控制和全棧性能優化的公司,TPU在其中扮演了關鍵角色。

Gemini 2.0多模態模型的訓練和推理都在TPU上完成,而TPU的高效能使谷歌能夠以相對低成本訓練大規模模型,使模型迭代周期更短、成本更低。

隨著公司進入推理時代,TPU的作用從支持谷歌內部模型轉向支持全球企業客戶。谷歌雲的AI收入隨之大幅增加,雲部門的財報顯示全年化收入達到440億美元,並成為谷歌整體業績增長的重要驅動力。

谷歌在雲市場的競爭地位長期落後於AWS和Azure,但在AI時代出現了新的賽道,在AI基礎設施方面實現領先。這壹領先並非偶然,而是TPU多年積累後的自然結果。

在企業AI采用加速的大背景下,越來越多公司需要推理成本低、穩定性高、性能強的模型部署方案。GPU雖然性能強,但成本和供貨都存在限制,而TPU提供了更具經濟性和穩定性的替代方案。尤其在大規模在線推理場景中,TPU的優勢尤為明顯。

更重要的是,谷歌並非只以芯片作為賣點,而是以整體解決方案吸引企業。

例如谷歌提供從模型訓練、模型監控、向量數據庫、推理服務到數據安全的壹體化體系,TPU在其中作為最底層基礎設施發揮作用。谷歌將自己塑造為企業采用AI的完整平台,使其與AWS和Azure在差異化競爭中獲得新的優勢。

未來幾年,AI行業的競爭將從模型維度轉向成本維度,從訓練能力轉向推理規模,從生態構建轉向基礎設施整合。谷歌憑借 TPU、全球數據中心布局、代際升級節奏和全棧能力,有望在這壹新周期中構建比過去拾年更牢固的競爭壁壘。

谷歌從追趕者轉向領先者的過程並非壹蹴而就,而是在拾年時間裡持續投入基礎設施、堅持自研、不斷調整模型路線的結果。TPU是谷歌在AI時代構建的最長久、最深層、最具戰略意義的資產,而這壹資產正在成為推動谷歌市值增長、雲業務崛起和AI商業模式重塑的主力引擎。

[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  •  延伸閱讀 更多...
    中共官媒宣揚谷歌簽約廣州 引網民嘲諷 AI下的谷歌:沒有鬼故事,只有大豐收
    伍角大樓聯手谷歌!Gemini獲軍方采用 谷歌員工聯署請願 要求CEO拒絕承接美軍機密業務
    全球最大規模!Google部署"鐵空氣電池" Google地圖即將迎來大規模AI升級
    Google首款無屏幕"智慧手環"曝光 Google全新PC電腦設計首度曝光(圖
    網友發現 Google地圖壹片紅通通 壹票人嚇壞 谷歌拿出壓箱底技術,中國開源模型即將迎戰?
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站