造出最大芯片的公司 拿下今年全球最大IPO 首日漲70%
在良率上,Cerebras 對外宣稱做到了 100%。可如果仔細研究其S1文件和公開的信息和資料,它實際上只是改變了良率本身的計算方式。
換句話說,他重新定義了芯片良率。
傳統芯片的良率算的是壹顆die是否如預期完整可用,只要落上壹個致命缺陷,整顆芯片就會被報廢或降級出售。Cerebras把良率的定義換了壹種計算方式:整片晶圓能否通過冗余核心和片上網絡繞過缺陷,最終湊出壹個邏輯上完整的計算系統。根據S-1文件的描述:這是從 memory 行業借來的思路,DRAM/SRAM實際上就是靠冗余Row/column 把良率做到接近100%,Cerebras 也把這套做法搬到邏輯芯片上。

這倒不能說他完全是在偷換良率的概念,真要實現如此大面積上的系統可用性也很不容易。靠著片內互連和結構上的取巧,Cerebras實現了某種工程上的突破和產品層面的平衡。但說到底,它和傳統 GPU 良率口徑不在同壹個度量衡裡,並不能直接橫向比較。
從Cerebras的視角來看,除了WSE, 還有壹個顯著特點,也是其多次強調的創新突破之處,那就是片內帶寬極高。根據其公開說法,片上 NoC 帶寬達到Pbps量級。
但如果仔細研究就會發現,只要數據需要離開晶圓,還是要面對其他 AI芯片面臨的問題,片(卡)間帶寬的瓶頸同樣會出現,片內和片間互連的量級差大約在 100 倍以上。
我們分析,正是這種“內快外慢”的結構決定了WSE的“轉向”故事。
贰、訓練夢碎,推理找到了新機會
Cerebras 最早瞄准的是訓練。站在今天回看,這件事沒做成。

訓練市場有叁個繞不過去的約束。硬件:大模型訓練拼的不是單芯片算力,是外部內存與外部互連,權重、梯度、optimizer state、activation 都要在大規模系統裡高效搬運,而WSE恰恰在片外 I/O 互連上是短板。
軟件:Nvidia 的真正壁壘在 GPU+CUDA+NCCL+NVLink+NVSwitch+HBM+服務器+雲廠商部署+開發者生態共同搭出的整套系統,這種壁壘不是單點技術領先就能撼動。訓練場景的客戶基本上主要為全球大模型的頭部玩家了,他們當下最大的戰略任務是“留在牌桌上、爭最快迭代”,沒有人會用如此巨大的機會成本去賭壹顆非Nvidia的訓練芯片。
Cerebras當年為訓練配了SwarmX和MemoryX,這其實壹定程度上是借用了AMD的既有成果,掛在 WSE外面解決內存與擴展。但實際部署中這套配套基本沒被認真用起來,根源還是那句話,WSE 的技術亮點在片內,AI 系統的真實瓶頸在系統,在模型如此規模化的今天,片間與片外的瓶頸,直接限制了系統的效能,進壹步限制了應用場景。
它還押過壹個更大的賭注:非結構化權重稀疏,理論上 8:1 任意稀疏可以拿到接近 8 倍的有效算力,在產品定義與設計上,要在AI計算的泛化意義上來實現,那是非常難的。但在實際上,大模型最後沒走這條路,業界主流是 MoE、低精度量化(FP8/FP4/MXFP)、attention 優化。Cerebras 在硬件上嘗試去做壹個很難的特性,但這個特性沒有成為模型演進的主路線。
[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
換句話說,他重新定義了芯片良率。
傳統芯片的良率算的是壹顆die是否如預期完整可用,只要落上壹個致命缺陷,整顆芯片就會被報廢或降級出售。Cerebras把良率的定義換了壹種計算方式:整片晶圓能否通過冗余核心和片上網絡繞過缺陷,最終湊出壹個邏輯上完整的計算系統。根據S-1文件的描述:這是從 memory 行業借來的思路,DRAM/SRAM實際上就是靠冗余Row/column 把良率做到接近100%,Cerebras 也把這套做法搬到邏輯芯片上。

這倒不能說他完全是在偷換良率的概念,真要實現如此大面積上的系統可用性也很不容易。靠著片內互連和結構上的取巧,Cerebras實現了某種工程上的突破和產品層面的平衡。但說到底,它和傳統 GPU 良率口徑不在同壹個度量衡裡,並不能直接橫向比較。
從Cerebras的視角來看,除了WSE, 還有壹個顯著特點,也是其多次強調的創新突破之處,那就是片內帶寬極高。根據其公開說法,片上 NoC 帶寬達到Pbps量級。
但如果仔細研究就會發現,只要數據需要離開晶圓,還是要面對其他 AI芯片面臨的問題,片(卡)間帶寬的瓶頸同樣會出現,片內和片間互連的量級差大約在 100 倍以上。
我們分析,正是這種“內快外慢”的結構決定了WSE的“轉向”故事。
贰、訓練夢碎,推理找到了新機會
Cerebras 最早瞄准的是訓練。站在今天回看,這件事沒做成。

訓練市場有叁個繞不過去的約束。硬件:大模型訓練拼的不是單芯片算力,是外部內存與外部互連,權重、梯度、optimizer state、activation 都要在大規模系統裡高效搬運,而WSE恰恰在片外 I/O 互連上是短板。
軟件:Nvidia 的真正壁壘在 GPU+CUDA+NCCL+NVLink+NVSwitch+HBM+服務器+雲廠商部署+開發者生態共同搭出的整套系統,這種壁壘不是單點技術領先就能撼動。訓練場景的客戶基本上主要為全球大模型的頭部玩家了,他們當下最大的戰略任務是“留在牌桌上、爭最快迭代”,沒有人會用如此巨大的機會成本去賭壹顆非Nvidia的訓練芯片。
Cerebras當年為訓練配了SwarmX和MemoryX,這其實壹定程度上是借用了AMD的既有成果,掛在 WSE外面解決內存與擴展。但實際部署中這套配套基本沒被認真用起來,根源還是那句話,WSE 的技術亮點在片內,AI 系統的真實瓶頸在系統,在模型如此規模化的今天,片間與片外的瓶頸,直接限制了系統的效能,進壹步限制了應用場景。
它還押過壹個更大的賭注:非結構化權重稀疏,理論上 8:1 任意稀疏可以拿到接近 8 倍的有效算力,在產品定義與設計上,要在AI計算的泛化意義上來實現,那是非常難的。但在實際上,大模型最後沒走這條路,業界主流是 MoE、低精度量化(FP8/FP4/MXFP)、attention 優化。Cerebras 在硬件上嘗試去做壹個很難的特性,但這個特性沒有成為模型演進的主路線。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:
造出最大芯片的公司 拿下今年全球最大IPO 首日漲70%