把Token價格打下來,中國芯片公司換了種活法

2026-06-26 | 來源: 虎嗅APP | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

2024年年底之前，行業主流還是“訓推壹體、訓練為王”，曦望做了壹個反共識的決定：砍掉所有訓練模塊，把全部資源押注推理，只做推理GPU。

市面上還有另壹種選擇：ASIC，專用芯片。它為某個特定模型量身定做，效率極高。也是大模型之下的受益者。曦望為什麼不走這條路，偏要用通用架構做推理？我試圖用幾種行業裡流行的解決方案向他們提出疑問。

曦望CTO 高洋的回答，很幹淨形象：專用芯片雖然能在單壹模型上做到極致效率，但這相當於把模型“寫死”在芯片上，盡管效率很高，但只能適配固定模型，無法升級調整，另壹面，AI模型架構的演進速度遠超硬件周期，尤其在 Agent 時代，模型和工作流幾乎月月在變，通用芯片架構，能夠保證各類客戶的需求，適配不同的Agent，本質上是在“今天最佳”和“明天可能”之間做權衡。

這很像是單項選手和全能型選手的差異，曦望選擇做後者。

王湛的視角更偏市場。他算了壹筆時間賬：壹顆芯片從研發到流片落地，最少18個月，過去甚至要兩年以上。如果芯片兼容性不夠好，等你做完的時候，內置適配的模型已經落後了。

壹款面向推理的GPU的設計取舍

為了讓文章更加通俗易懂，過去我們很少花大篇幅介紹壹家公司的產品，因為容易流於技術，但想把曦望的GPU如何省Token這件事理清，此次不妨說壹說，曦望的啟望S3芯片的設計邏輯，你能夠從這種設計邏輯中，看到壹家公司，如何絞盡腦汁，把推理的成本壓縮，讓單位Token發揮更大的價值。

在整個Token生產環節中，究竟哪個環節造成的Token損耗最高？

高洋把這件事拆解得很詳細，Token怎麼生產出來的？整個過程可以類比為壹條流水線：輸入、生產、交付。

首先是輸入，叫做Prefill預填充，這壹步具體而言就是，用戶的所有歷史對話和上下文壹次性灌進去。對話越長，灌進去的東西越多，需要的存儲空間越大。這壹步吃的是算力和顯存容量。

接著就是生產環節，也叫做Decode解碼階段： AI 開始壹個字壹個字地生成回答，瓶頸在帶寬、通信時延和顯存容量。如果芯片讀數據太慢，或者多塊芯片之間傳話太慢，任務就開始排隊。更麻煩的是，AI 在生成過程中需要不斷翻閱“前文記憶”（技術上叫 KV Cache），多個用戶同時提問時，這些記憶會爭搶顯存空間，導致無效讀寫、算力空轉。多層級的數據傳輸再壹拖，整體效率就塌了。

然後是交付：長文本輸出需要分片傳輸，稍有不慎就會卡頓、端到端延遲升高。

從頭到尾看下來，算力不是核心瓶頸。真正卡脖子的是顯存容量、讀取帶寬和通信延遲。

這個判斷，成了曦望的GPU所有設計選擇的出發點。以啟望S3為例，它做了兩個在國產 GPU 中少見的選擇：其壹是內存方案，它沒用訓練芯片慣用的 HBM，而是選了消費電子使用的低功耗內存（LPDDR）——因為推理需要的是大容量的內存，S3的顯存容量最高可達600GB。這也是國內顯存容量最大的GPU。

又因為 LPDDR 有不同規格（LPDDR6和 LPDDR5X 兼容），啟望S3可以靈活推出不同顯存版本，覆蓋從邊緣設備到雲端服務器的各種場景，不用重新設計芯片。壹套架構，多種配置。

其贰是通信方案，芯片和外界交換數據需要通道。啟望S3用了最新壹代的通道標准（PCIe Gen6），相當於把雙車道擴成肆車道，數據進出速度翻倍。同時，AI翻閱“前文記憶”的方式也做了分層，最常用的放手邊，偶爾用的放隔壁，很少用的放倉庫。多個用戶同時提問，不再互相擠占、互相拖慢。

去掉訓練模塊之後，省出來的晶體管和功耗全部集中投向推理加速。還是以啟望S3為例，在實際場景下，綜合算力利用率穩定在95%左右。這解決了傳統 GPU 壹個老毛病：標稱算力很高，實際跑起來用不滿，大量算力在空轉。高洋做了壹個比喻，這就像壹個100人的工廠，只有30個人在幹活，其余70個在等料。啟望S3做到了95%的利用率：100個人裡95個都在幹活，幾乎沒有浪費。

不過，壹顆芯片再強，也扛不住壹座 Token 工廠的體量。尤其到了 Agent 時代，長上下文、高並發，壹個任務動輒要成百上千顆芯片協同來算。所以在單顆 S3 之外，曦望還把芯片組裝成了更大的“算力單元”——超節點：用高速互連，在壹個互連域裡把最多 256 顆芯片連成壹體，對外像壹顆“超級芯片”；這樣的集群能扛住萬億參數大模型的高並發推理。

[物價飛漲的時候這樣省錢購物很爽] 好新聞沒人評論怎麼行，我來說幾句

分享:

上壹頁 1 234 5 6 7 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

把Token價格打下來,中國芯片公司換了種活法

意見