把Token價格打下來,中國芯片公司換了種活法
2024年年底之前,行業主流還是“訓推壹體、訓練為王”,曦望做了壹個反共識的決定:砍掉所有訓練模塊,把全部資源押注推理,只做推理GPU。
市面上還有另壹種選擇:ASIC,專用芯片。它為某個特定模型量身定做,效率極高。也是大模型之下的受益者。曦望為什麼不走這條路,偏要用通用架構做推理?我試圖用幾種行業裡流行的解決方案向他們提出疑問。
曦望CTO 高洋的回答,很幹淨形象:專用芯片雖然能在單壹模型上做到極致效率,但這相當於把模型“寫死”在芯片上,盡管效率很高,但只能適配固定模型,無法升級調整,另壹面,AI模型架構的演進速度遠超硬件周期,尤其在 Agent 時代,模型和工作流幾乎月月在變,通用芯片架構,能夠保證各類客戶的需求,適配不同的Agent,本質上是在“今天最佳”和“明天可能”之間做權衡。
這很像是單項選手和全能型選手的差異,曦望選擇做後者。
王湛的視角更偏市場。他算了壹筆時間賬:壹顆芯片從研發到流片落地,最少18個月,過去甚至要兩年以上。如果芯片兼容性不夠好,等你做完的時候,內置適配的模型已經落後了。
壹款面向推理的GPU的設計取舍
為了讓文章更加通俗易懂,過去我們很少花大篇幅介紹壹家公司的產品,因為容易流於技術,但想把曦望的GPU如何省Token這件事理清,此次不妨說壹說,曦望的啟望S3芯片的設計邏輯,你能夠從這種設計邏輯中,看到壹家公司,如何絞盡腦汁,把推理的成本壓縮,讓單位Token發揮更大的價值。
在整個Token生產環節中,究竟哪個環節造成的Token損耗最高?
高洋把這件事拆解得很詳細,Token怎麼生產出來的?整個過程可以類比為壹條流水線:輸入、生產、交付。
首先是輸入,叫做Prefill預填充,這壹步具體而言就是,用戶的所有歷史對話和上下文壹次性灌進去。對話越長,灌進去的東西越多,需要的存儲空間越大。這壹步吃的是算力和顯存容量。
接著就是生產環節,也叫做Decode解碼階段: AI 開始壹個字壹個字地生成回答,瓶頸在帶寬、通信時延和顯存容量。如果芯片讀數據太慢,或者多塊芯片之間傳話太慢,任務就開始排隊。更麻煩的是,AI 在生成過程中需要不斷翻閱“前文記憶”(技術上叫 KV Cache),多個用戶同時提問時,這些記憶會爭搶顯存空間,導致無效讀寫、算力空轉。多層級的數據傳輸再壹拖,整體效率就塌了。
然後是交付:長文本輸出需要分片傳輸,稍有不慎就會卡頓、端到端延遲升高。
從頭到尾看下來,算力不是核心瓶頸。真正卡脖子的是顯存容量、讀取帶寬和通信延遲。
這個判斷,成了曦望的GPU所有設計選擇的出發點。以啟望S3為例,它做了兩個在國產 GPU 中少見的選擇:其壹是內存方案,它沒用訓練芯片慣用的 HBM,而是選了消費電子使用的低功耗內存(LPDDR)——因為推理需要的是大容量的內存,S3的顯存容量最高可達600GB。這也是國內顯存容量最大的GPU。
又因為 LPDDR 有不同規格(LPDDR6和 LPDDR5X 兼容),啟望S3可以靈活推出不同顯存版本,覆蓋從邊緣設備到雲端服務器的各種場景,不用重新設計芯片。壹套架構,多種配置。
其贰是通信方案,芯片和外界交換數據需要通道。啟望S3用了最新壹代的通道標准(PCIe Gen6),相當於把雙車道擴成肆車道,數據進出速度翻倍。同時,AI翻閱“前文記憶”的方式也做了分層,最常用的放手邊,偶爾用的放隔壁,很少用的放倉庫。多個用戶同時提問,不再互相擠占、互相拖慢。
去掉訓練模塊之後,省出來的晶體管和功耗全部集中投向推理加速。還是以啟望S3為例,在實際場景下,綜合算力利用率穩定在95%左右。這解決了傳統 GPU 壹個老毛病:標稱算力很高,實際跑起來用不滿,大量算力在空轉。高洋做了壹個比喻,這就像壹個100人的工廠,只有30個人在幹活,其余70個在等料。啟望S3做到了95%的利用率:100個人裡95個都在幹活,幾乎沒有浪費。
不過,壹顆芯片再強,也扛不住壹座 Token 工廠的體量。尤其到了 Agent 時代,長上下文、高並發,壹個任務動輒要成百上千顆芯片協同來算。所以在單顆 S3 之外,曦望還把芯片組裝成了更大的“算力單元”——超節點:用高速互連,在壹個互連域裡把最多 256 顆芯片連成壹體,對外像壹顆“超級芯片”;這樣的集群能扛住萬億參數大模型的高並發推理。
[物價飛漲的時候 這樣省錢購物很爽]
好新聞沒人評論怎麼行,我來說幾句
市面上還有另壹種選擇:ASIC,專用芯片。它為某個特定模型量身定做,效率極高。也是大模型之下的受益者。曦望為什麼不走這條路,偏要用通用架構做推理?我試圖用幾種行業裡流行的解決方案向他們提出疑問。
曦望CTO 高洋的回答,很幹淨形象:專用芯片雖然能在單壹模型上做到極致效率,但這相當於把模型“寫死”在芯片上,盡管效率很高,但只能適配固定模型,無法升級調整,另壹面,AI模型架構的演進速度遠超硬件周期,尤其在 Agent 時代,模型和工作流幾乎月月在變,通用芯片架構,能夠保證各類客戶的需求,適配不同的Agent,本質上是在“今天最佳”和“明天可能”之間做權衡。
這很像是單項選手和全能型選手的差異,曦望選擇做後者。
王湛的視角更偏市場。他算了壹筆時間賬:壹顆芯片從研發到流片落地,最少18個月,過去甚至要兩年以上。如果芯片兼容性不夠好,等你做完的時候,內置適配的模型已經落後了。
壹款面向推理的GPU的設計取舍
為了讓文章更加通俗易懂,過去我們很少花大篇幅介紹壹家公司的產品,因為容易流於技術,但想把曦望的GPU如何省Token這件事理清,此次不妨說壹說,曦望的啟望S3芯片的設計邏輯,你能夠從這種設計邏輯中,看到壹家公司,如何絞盡腦汁,把推理的成本壓縮,讓單位Token發揮更大的價值。
在整個Token生產環節中,究竟哪個環節造成的Token損耗最高?
高洋把這件事拆解得很詳細,Token怎麼生產出來的?整個過程可以類比為壹條流水線:輸入、生產、交付。
首先是輸入,叫做Prefill預填充,這壹步具體而言就是,用戶的所有歷史對話和上下文壹次性灌進去。對話越長,灌進去的東西越多,需要的存儲空間越大。這壹步吃的是算力和顯存容量。
接著就是生產環節,也叫做Decode解碼階段: AI 開始壹個字壹個字地生成回答,瓶頸在帶寬、通信時延和顯存容量。如果芯片讀數據太慢,或者多塊芯片之間傳話太慢,任務就開始排隊。更麻煩的是,AI 在生成過程中需要不斷翻閱“前文記憶”(技術上叫 KV Cache),多個用戶同時提問時,這些記憶會爭搶顯存空間,導致無效讀寫、算力空轉。多層級的數據傳輸再壹拖,整體效率就塌了。
然後是交付:長文本輸出需要分片傳輸,稍有不慎就會卡頓、端到端延遲升高。
從頭到尾看下來,算力不是核心瓶頸。真正卡脖子的是顯存容量、讀取帶寬和通信延遲。
這個判斷,成了曦望的GPU所有設計選擇的出發點。以啟望S3為例,它做了兩個在國產 GPU 中少見的選擇:其壹是內存方案,它沒用訓練芯片慣用的 HBM,而是選了消費電子使用的低功耗內存(LPDDR)——因為推理需要的是大容量的內存,S3的顯存容量最高可達600GB。這也是國內顯存容量最大的GPU。
又因為 LPDDR 有不同規格(LPDDR6和 LPDDR5X 兼容),啟望S3可以靈活推出不同顯存版本,覆蓋從邊緣設備到雲端服務器的各種場景,不用重新設計芯片。壹套架構,多種配置。
其贰是通信方案,芯片和外界交換數據需要通道。啟望S3用了最新壹代的通道標准(PCIe Gen6),相當於把雙車道擴成肆車道,數據進出速度翻倍。同時,AI翻閱“前文記憶”的方式也做了分層,最常用的放手邊,偶爾用的放隔壁,很少用的放倉庫。多個用戶同時提問,不再互相擠占、互相拖慢。
去掉訓練模塊之後,省出來的晶體管和功耗全部集中投向推理加速。還是以啟望S3為例,在實際場景下,綜合算力利用率穩定在95%左右。這解決了傳統 GPU 壹個老毛病:標稱算力很高,實際跑起來用不滿,大量算力在空轉。高洋做了壹個比喻,這就像壹個100人的工廠,只有30個人在幹活,其余70個在等料。啟望S3做到了95%的利用率:100個人裡95個都在幹活,幾乎沒有浪費。
不過,壹顆芯片再強,也扛不住壹座 Token 工廠的體量。尤其到了 Agent 時代,長上下文、高並發,壹個任務動輒要成百上千顆芯片協同來算。所以在單顆 S3 之外,曦望還把芯片組裝成了更大的“算力單元”——超節點:用高速互連,在壹個互連域裡把最多 256 顆芯片連成壹體,對外像壹顆“超級芯片”;這樣的集群能扛住萬億參數大模型的高並發推理。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



