把Token價格打下來,中國芯片公司換了種活法

2026-06-26 | 來源: 虎嗅APP | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

單芯片解決“每顆卡多省 Token”，集群解決壹座工廠穩定產 Token，兩件事，缺壹不可。

兼容性，則是另壹半。S3對 CUDA 生態兼容性做到了99%以上，已有的 AI Agent 和模型可以直接跑通，不用改代碼。就像換了壹台新電腦，但你原來裝的所有軟件、存的所有文件，插上就能用，不用重新安裝、重新配置。曦望走的是“軟硬同源”，硬件和軟件出自同壹個團隊、面向同壹個目標設計。軟件把同壹顆芯片榨出更多有效 Token。

推理GPU的Token生意

王湛對商業模式想得很清楚。八個字：創造價值，獲得收入。

對曦望來說，幫客戶把 Token 成本降下來，讓 AI Agent 跑得更好，這本身就是價值。客戶為產品付費，付的錢覆蓋成本、產生利潤，利潤再投入研發和招人，完成閉環。

但“幫客戶省錢”這件事，具體怎麼做？

曦望把當前的推理算力客戶歸為肆類，每類客戶盯的Token指標完全不同。

第壹類是智算中心。他們不怕“慢”，怕“閒”。傳統架構下GPU閒置率常超過40%，這些客戶盯的是每壹元錢出多少Token、每瓦特出多少Token，目標是讓每張卡同時跑更多任務，7×24不停機。

第贰類是互聯網和AI公司，他們不怕貴，怕“卡”。高並發、波峰波谷明顯，這類客戶願意為低延遲、高吞吐支付溢價。

第叁類是大型央國企和民企，用AI改造核心業務流程的企業。他們對數據安全有嚴格要求，數據壹個字節都不能出機房，這類客戶的工作負載穩定可預測，上下文通常很長。

第肆類是垂直行業，制造、金融、醫療、自動駕駛。他們缺AI專家，要的是開箱即用，買的是解決方案不是算力卡。

肆類客戶面貌迥異，但有壹個共同處境：都在從“壹次性燒錢訓練”走向“天天算賬跑推理”。推理成本，成了所有人的命門。

更有趣的是，Token服務的市場，正在出現明顯分化，壹部分是行業頭部玩家，他們靠技術提供高價值的服務，享受技術紅利，他們的毛利率可以做到60%以上；另壹部分則是大量同質化的服務，毛利率大概20%以下。

針對這樣的分化，王湛發現，Token的服務需要差異化，這背後其實是算力需求精細化的結果，作為算力提供方，需要讓不同質量的算力服務找到真正需要它的場景。

例如高價值任務，編程、醫療、法律分析，用戶追求高准確率和低延遲，對價格不敏感，這類服務的毛利率很好。低價值任務例如聊天、摘要、創意草稿，錯誤容忍度高，用戶極度價格敏感，毛利不高。

同壹個“推理市場”，其實是兩門截然不同的生意。

王湛說，過去客戶問的是：你多少 TFLOPS？多大顯存？現在問的是：我這個業務，你能不能跑得起、跑得便宜、跑得穩？“以前賣算力，現在變成賣算力的結果。”王湛說。

他對終局的判斷是：國內大模型很可能成為公共基礎設施，就像手機流量壹樣，Token 價格整體還是會持續變便宜。成本下降本身，就是需求爆炸的燃料。 Token 越便宜，原來跑不起的應用就都跑起來了，總需求反被放大。

“對我們做芯片的來說，這其實是最好的局面：我們把成本打下去，市場自己會變大。我們讓客戶賺錢，客戶就會更多的買，也讓我們賺錢。”王湛說。

這是曦望想扮演的角色：離台前的聚光燈很遠，卻離每壹個用Token創業的人很近。

以下為虎嗅訪談精選：

虎嗅：推理市場很大，但競爭也非常激烈，在曦望所在的推理算力賽道的競爭格局如何？

王湛：競爭確實激烈，但我想先把“激烈”這個詞拆開——推理算力這條賽道，其實不是壹鍋亂燉，它分幾個陣營。

大致是叁類玩家：第壹類是海外巨頭。問題是貴，在國內還疊加了供應與自主可控的不確定性。

第贰類，是訓推壹體GPU，已經有很多家上市的公司。

第叁類是專用芯片 ASIC。對單壹模型效率極高，但太“死”，模型壹換就麻煩，更適合固定場景。

曦望選的是另壹個位置：做壹款真正為推理而生、又能兼容主流生態的通用 GPU：從架構定義起就為推理取舍，走容量優先的大顯存路線，再加上軟硬壹體。

[物價飛漲的時候這樣省錢購物很爽] 這條新聞還沒有人評論喔，等著您的高見呢

分享:

上壹頁 1 2 345 6 7 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

把Token價格打下來,中國芯片公司換了種活法

意見