把Token價格打下來,中國芯片公司換了種活法
解釋壹下“推理”。AI 的工作分兩步:訓練是造出壹個聰明的大腦,推理是讓這個大腦幹活。過去幾年,錢幾乎都砸在訓練上,因為大腦還不夠聰明,現在大腦夠用了,幹活的需求就爆發了。
壹組數據描繪出了這場變革的輪廓。德勤預測,2026年推理將吃掉全球 AI 算力的叁分之贰,而叁年前推理市場還幾乎不存在。OpenAI 每天光給 ChatGPT 跑推理就燒掉70多萬美元,壹年賬單超過2.5億。而 GPT-4訓練壹次的成本?肆個月的推理費就能覆蓋。
另壹個更有值得關注的,是中國的國產芯片和生態在這壹輪國產大模型的推理爆發中的機遇正在被放大。
王湛說了壹句話,讓人印象深刻,中國的推理芯片是跟著中國大模型整體發展壹起成長的,是整個中國AI生態裡重要的壹環。國內的AI芯片和中國整套AI生態的契合度更高,這是差異化的特點。
這扭轉了整個“國產替代”的敘事邏輯,從原本的倒逼和追趕,轉向了壹種換道並跑。
事實上,到 2026 年初,中國大模型已經在全球拿到了某種定價權。同樣壹份 Token,中國模型的價格只有國外同行的六分之壹到拾分之壹。
在我們交流後的壹周,大模型公司智譜,港股上市不到半年,市值從528億港元,上漲至萬億港元,漲幅將近20倍。其背後正是“國產模型配國芯”的敘事,據了解,智譜的GLM-5.2上線首日,就完成了與國產算力平台的全面適配。
王湛看來,國產算力和芯片的解決方案已經不單是“國產替代”那麼簡單,而是壹個更劃算的選擇。
我曾和不少歐洲、中東和硅谷的AI公司交流,越來越多的AI應用公司和海外開發者選擇用中國的開源模型,圖的就是便宜和安全,“你很難想象,DeepSeek正在成為這些硅谷這些AI公司的選擇”。壹位歐洲科技公司的CEO告訴我。另外,在中東、歐洲,中國的服務器和芯片正在這些地區進行售賣,這也意味著中國的模型和芯片廠商,正在突破“國產追趕”,進入全球市場的競爭。
我們這次聊天,主要想搞清楚幾件事:壹家 AI 基因的公司,為什麼選擇做推理專用 GPU?推理芯片的生意,究竟怎麼跑通?誰在買單,錢又從哪省出來?曦望到底怎麼做Token這門生意?以及更重要的,在推理這個賽道上,國產芯片和中國方案,在全球到底有多大競爭力?
當“反共識”變成“共識”
叁年前如果有人說要做壹家推理專用的GPU公司,大概率會被當成瘋子。
那時候AI的重心全在訓練。2022年前後,深度學習還在“造模型”階段,行業的興奮點是怎麼把模型訓得更大、更聰明。如果你翻看叁年前AI芯片公司的宣傳,雲端訓練芯片是他們的主戰場和拉高估值的錨點。彼時的模型參數量才百萬到千萬級別,跑壹次推理的計算量微乎其微。
為它專門做壹款芯片?簡直是“高射炮打蚊子”。
轉折發生在大模型出現之後。
這裡要解釋壹個關鍵機制。大模型生成文字,是壹個字壹個字往外蹦的。每蹦壹個字,它都要回頭看壹遍前面所有說過的話,確認上下文沒丟。這些“前文記憶”全都壓在顯存裡。對話越長,記憶越大。壹段百萬 Token 的上下文,光存這些記憶就要吃掉上百 GB 顯存。
而真正把推理需求推過臨界點的,是 AI 智能體(Agent)。和單輪問答不同,壹個 Agent 任務往往要自己規劃、檢索、調用工具、再反復自我修正。業內的測算是,完成壹個智能體任務消耗的 Token,是壹次普通對話的幾拾倍;壹些後台常駐的監控類 Agent,更是 7×24 不停地燒 Token。模型越能幹,推理思考越完備,單位任務燒掉的 Token 就會越多。
所以訓練和推理,瓶頸完全不同。訓練的要義是Scaling Law的暴力美學,推理的關鍵,則卡在顯存容量和讀取速度上。模型的上下文窗口從幾千 Token 漲到幾拾萬、上百萬 Token,再疊加 Agent 的多步調用,這個矛盾只會越來越尖銳。
再加上 DeepSeek 這類開源模型讓更多企業可以自己部署大模型,推理側的需求真正炸開了。
壹面是推理需求的爆炸,壹面卻出現了壹個市場空白。王湛和曦望團隊調研下來發現,市面上想買推理芯片的公司,能選的要麼是以訓練為主的“訓推壹體”GPU(推理只是附帶功能),要麼是專用芯片 ASIC(效率高但適配性差,換個模型就很麻煩)。沒有人做壹款真正為推理而生、又能兼容主流開發生態的通用 GPU。
[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
壹組數據描繪出了這場變革的輪廓。德勤預測,2026年推理將吃掉全球 AI 算力的叁分之贰,而叁年前推理市場還幾乎不存在。OpenAI 每天光給 ChatGPT 跑推理就燒掉70多萬美元,壹年賬單超過2.5億。而 GPT-4訓練壹次的成本?肆個月的推理費就能覆蓋。
另壹個更有值得關注的,是中國的國產芯片和生態在這壹輪國產大模型的推理爆發中的機遇正在被放大。
王湛說了壹句話,讓人印象深刻,中國的推理芯片是跟著中國大模型整體發展壹起成長的,是整個中國AI生態裡重要的壹環。國內的AI芯片和中國整套AI生態的契合度更高,這是差異化的特點。
這扭轉了整個“國產替代”的敘事邏輯,從原本的倒逼和追趕,轉向了壹種換道並跑。
事實上,到 2026 年初,中國大模型已經在全球拿到了某種定價權。同樣壹份 Token,中國模型的價格只有國外同行的六分之壹到拾分之壹。
在我們交流後的壹周,大模型公司智譜,港股上市不到半年,市值從528億港元,上漲至萬億港元,漲幅將近20倍。其背後正是“國產模型配國芯”的敘事,據了解,智譜的GLM-5.2上線首日,就完成了與國產算力平台的全面適配。
王湛看來,國產算力和芯片的解決方案已經不單是“國產替代”那麼簡單,而是壹個更劃算的選擇。
我曾和不少歐洲、中東和硅谷的AI公司交流,越來越多的AI應用公司和海外開發者選擇用中國的開源模型,圖的就是便宜和安全,“你很難想象,DeepSeek正在成為這些硅谷這些AI公司的選擇”。壹位歐洲科技公司的CEO告訴我。另外,在中東、歐洲,中國的服務器和芯片正在這些地區進行售賣,這也意味著中國的模型和芯片廠商,正在突破“國產追趕”,進入全球市場的競爭。
我們這次聊天,主要想搞清楚幾件事:壹家 AI 基因的公司,為什麼選擇做推理專用 GPU?推理芯片的生意,究竟怎麼跑通?誰在買單,錢又從哪省出來?曦望到底怎麼做Token這門生意?以及更重要的,在推理這個賽道上,國產芯片和中國方案,在全球到底有多大競爭力?
當“反共識”變成“共識”
叁年前如果有人說要做壹家推理專用的GPU公司,大概率會被當成瘋子。
那時候AI的重心全在訓練。2022年前後,深度學習還在“造模型”階段,行業的興奮點是怎麼把模型訓得更大、更聰明。如果你翻看叁年前AI芯片公司的宣傳,雲端訓練芯片是他們的主戰場和拉高估值的錨點。彼時的模型參數量才百萬到千萬級別,跑壹次推理的計算量微乎其微。
為它專門做壹款芯片?簡直是“高射炮打蚊子”。
轉折發生在大模型出現之後。
這裡要解釋壹個關鍵機制。大模型生成文字,是壹個字壹個字往外蹦的。每蹦壹個字,它都要回頭看壹遍前面所有說過的話,確認上下文沒丟。這些“前文記憶”全都壓在顯存裡。對話越長,記憶越大。壹段百萬 Token 的上下文,光存這些記憶就要吃掉上百 GB 顯存。
而真正把推理需求推過臨界點的,是 AI 智能體(Agent)。和單輪問答不同,壹個 Agent 任務往往要自己規劃、檢索、調用工具、再反復自我修正。業內的測算是,完成壹個智能體任務消耗的 Token,是壹次普通對話的幾拾倍;壹些後台常駐的監控類 Agent,更是 7×24 不停地燒 Token。模型越能幹,推理思考越完備,單位任務燒掉的 Token 就會越多。
所以訓練和推理,瓶頸完全不同。訓練的要義是Scaling Law的暴力美學,推理的關鍵,則卡在顯存容量和讀取速度上。模型的上下文窗口從幾千 Token 漲到幾拾萬、上百萬 Token,再疊加 Agent 的多步調用,這個矛盾只會越來越尖銳。
再加上 DeepSeek 這類開源模型讓更多企業可以自己部署大模型,推理側的需求真正炸開了。
壹面是推理需求的爆炸,壹面卻出現了壹個市場空白。王湛和曦望團隊調研下來發現,市面上想買推理芯片的公司,能選的要麼是以訓練為主的“訓推壹體”GPU(推理只是附帶功能),要麼是專用芯片 ASIC(效率高但適配性差,換個模型就很麻煩)。沒有人做壹款真正為推理而生、又能兼容主流開發生態的通用 GPU。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:
把Token價格打下來,中國芯片公司換了種活法