Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_bcc1665898818e77d221104aa46b14ea, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
把Token價格打下來,中國芯片公司換了種活法 | 溫哥華地產中心
   

把Token價格打下來,中國芯片公司換了種活法




這是虎嗅WAIC“追蹤Token商業新范式”系列文章第05期。

2026年,紅果短劇平台上出了個新物種:叁伍個人的小團隊,靠 AI 工具批量造短劇。產量翻倍、成本驟降。

這件事當然有著某種顛覆的意味,壹個叫做OPC(壹人公司)的組織形式率先在短劇行業誕生。但在上海浦東的曦望Sunrise(日出)辦公室,聯席CEO王湛看到的,是壹個叫做“Token 消耗量”的數字。

Token,簡單說,就是 AI 幹活的計量單位。你讓 AI 寫壹段話、畫壹張圖、生成壹集短劇,它都在消耗 Token。Token 越多,燒的算力越多,花的錢也越多。曦望科技(以下簡稱:曦望)賣的東西,恰好就是讓這筆賬變便宜的芯片。

“我們預判了推理算力會大幅度增長,但沒料到增速如此之快。”王湛說。



曦望聯席CEO王湛 圖片由曦望科技提供

如果要找壹家公司來講 Token 的故事,曦望大概是最合適的那個。Token 是推理需求爆發之後才火的概念,而曦望做的,恰好就是Token工廠裡最核心的推理 GPU。

壹同參與此次話題討論的,還有曦望科技的CTO高洋。和王湛相比,高洋是壹個純粹的技術人,甚至有些“社恐”,他是壹個文字表達邏輯大於話語表達的人。王湛則不壹樣,他更像是壹個企業家,具備商業嗅覺,對市場變化反應極快。



曦望CTO高洋 圖片由曦望科技提供

王湛說,這也是曦望團隊的特點,集群作戰,各有所長。

從會議室的落地窗望出去,黃浦江緩緩流過。對岸是徐匯西岸的東西雙塔,中國 AI 公司密度最高的地方。幾站地鐵外是張江,芯片企業密密匝匝。曦望卡在這兩個產業的交匯點。

它從壹家 AI 公司——商湯科技孵化而來,基因裡天然帶著“軟件優先”的直覺:先看大模型和AI軟件往哪走,再據此定義硬件,讓硬件設計服從軟件的走向。這種視角,讓曦望從誕生的第壹天起就盯上了推理市場。

解釋壹下“推理”。AI 的工作分兩步:訓練是造出壹個聰明的大腦,推理是讓這個大腦幹活。過去幾年,錢幾乎都砸在訓練上,因為大腦還不夠聰明,現在大腦夠用了,幹活的需求就爆發了。

壹組數據描繪出了這場變革的輪廓。德勤預測,2026年推理將吃掉全球 AI 算力的叁分之贰,而叁年前推理市場還幾乎不存在。OpenAI 每天光給 ChatGPT 跑推理就燒掉70多萬美元,壹年賬單超過2.5億。而 GPT-4訓練壹次的成本?肆個月的推理費就能覆蓋。

另壹個更有值得關注的,是中國的國產芯片和生態在這壹輪國產大模型的推理爆發中的機遇正在被放大。

王湛說了壹句話,讓人印象深刻,中國的推理芯片是跟著中國大模型整體發展壹起成長的,是整個中國AI生態裡重要的壹環。國內的AI芯片和中國整套AI生態的契合度更高,這是差異化的特點。

這扭轉了整個“國產替代”的敘事邏輯,從原本的倒逼和追趕,轉向了壹種換道並跑。

事實上,到 2026 年初,中國大模型已經在全球拿到了某種定價權。同樣壹份 Token,中國模型的價格只有國外同行的六分之壹到拾分之壹。

在我們交流後的壹周,大模型公司智譜,港股上市不到半年,市值從528億港元,上漲至萬億港元,漲幅將近20倍。其背後正是“國產模型配國芯”的敘事,據了解,智譜的GLM-5.2上線首日,就完成了與國產算力平台的全面適配。

王湛看來,國產算力和芯片的解決方案已經不單是“國產替代”那麼簡單,而是壹個更劃算的選擇。

我曾和不少歐洲、中東和硅谷的AI公司交流,越來越多的AI應用公司和海外開發者選擇用中國的開源模型,圖的就是便宜和安全,“你很難想象,DeepSeek正在成為這些硅谷這些AI公司的選擇”。壹位歐洲科技公司的CEO告訴我。另外,在中東、歐洲,中國的服務器和芯片正在這些地區進行售賣,這也意味著中國的模型和芯片廠商,正在突破“國產追趕”,進入全球市場的競爭。

我們這次聊天,主要想搞清楚幾件事:壹家 AI 基因的公司,為什麼選擇做推理專用 GPU?推理芯片的生意,究竟怎麼跑通?誰在買單,錢又從哪省出來?曦望到底怎麼做Token這門生意?以及更重要的,在推理這個賽道上,國產芯片和中國方案,在全球到底有多大競爭力?

當“反共識”變成“共識”

叁年前如果有人說要做壹家推理專用的GPU公司,大概率會被當成瘋子。

那時候AI的重心全在訓練。2022年前後,深度學習還在“造模型”階段,行業的興奮點是怎麼把模型訓得更大、更聰明。如果你翻看叁年前AI芯片公司的宣傳,雲端訓練芯片是他們的主戰場和拉高估值的錨點。彼時的模型參數量才百萬到千萬級別,跑壹次推理的計算量微乎其微。

為它專門做壹款芯片?簡直是“高射炮打蚊子”。

轉折發生在大模型出現之後。

這裡要解釋壹個關鍵機制。大模型生成文字,是壹個字壹個字往外蹦的。每蹦壹個字,它都要回頭看壹遍前面所有說過的話,確認上下文沒丟。這些“前文記憶”全都壓在顯存裡。對話越長,記憶越大。壹段百萬 Token 的上下文,光存這些記憶就要吃掉上百 GB 顯存。

而真正把推理需求推過臨界點的,是 AI 智能體(Agent)。和單輪問答不同,壹個 Agent 任務往往要自己規劃、檢索、調用工具、再反復自我修正。業內的測算是,完成壹個智能體任務消耗的 Token,是壹次普通對話的幾拾倍;壹些後台常駐的監控類 Agent,更是 7×24 不停地燒 Token。模型越能幹,推理思考越完備,單位任務燒掉的 Token 就會越多。

所以訓練和推理,瓶頸完全不同。訓練的要義是Scaling Law的暴力美學,推理的關鍵,則卡在顯存容量和讀取速度上。模型的上下文窗口從幾千 Token 漲到幾拾萬、上百萬 Token,再疊加 Agent 的多步調用,這個矛盾只會越來越尖銳。

再加上 DeepSeek 這類開源模型讓更多企業可以自己部署大模型,推理側的需求真正炸開了。

壹面是推理需求的爆炸,壹面卻出現了壹個市場空白。王湛和曦望團隊調研下來發現,市面上想買推理芯片的公司,能選的要麼是以訓練為主的“訓推壹體”GPU(推理只是附帶功能),要麼是專用芯片 ASIC(效率高但適配性差,換個模型就很麻煩)。沒有人做壹款真正為推理而生、又能兼容主流開發生態的通用 GPU。

2024年年底之前,行業主流還是“訓推壹體、訓練為王”,曦望做了壹個反共識的決定:砍掉所有訓練模塊,把全部資源押注推理,只做推理GPU。

市面上還有另壹種選擇:ASIC,專用芯片。它為某個特定模型量身定做,效率極高。也是大模型之下的受益者。曦望為什麼不走這條路,偏要用通用架構做推理?我試圖用幾種行業裡流行的解決方案向他們提出疑問。

曦望CTO 高洋的回答,很幹淨形象:專用芯片雖然能在單壹模型上做到極致效率,但這相當於把模型“寫死”在芯片上,盡管效率很高,但只能適配固定模型,無法升級調整,另壹面,AI模型架構的演進速度遠超硬件周期,尤其在 Agent 時代,模型和工作流幾乎月月在變,通用芯片架構,能夠保證各類客戶的需求,適配不同的Agent,本質上是在“今天最佳”和“明天可能”之間做權衡。

這很像是單項選手和全能型選手的差異,曦望選擇做後者。

王湛的視角更偏市場。他算了壹筆時間賬:壹顆芯片從研發到流片落地,最少18個月,過去甚至要兩年以上。如果芯片兼容性不夠好,等你做完的時候,內置適配的模型已經落後了。

壹款面向推理的GPU的設計取舍

為了讓文章更加通俗易懂,過去我們很少花大篇幅介紹壹家公司的產品,因為容易流於技術,但想把曦望的GPU如何省Token這件事理清,此次不妨說壹說,曦望的啟望S3芯片的設計邏輯,你能夠從這種設計邏輯中,看到壹家公司,如何絞盡腦汁,把推理的成本壓縮,讓單位Token發揮更大的價值。

在整個Token生產環節中,究竟哪個環節造成的Token損耗最高?

高洋把這件事拆解得很詳細,Token怎麼生產出來的?整個過程可以類比為壹條流水線:輸入、生產、交付。

首先是輸入,叫做Prefill預填充,這壹步具體而言就是,用戶的所有歷史對話和上下文壹次性灌進去。對話越長,灌進去的東西越多,需要的存儲空間越大。這壹步吃的是算力和顯存容量。

接著就是生產環節,也叫做Decode解碼階段: AI 開始壹個字壹個字地生成回答,瓶頸在帶寬、通信時延和顯存容量。如果芯片讀數據太慢,或者多塊芯片之間傳話太慢,任務就開始排隊。更麻煩的是,AI 在生成過程中需要不斷翻閱“前文記憶”(技術上叫 KV Cache),多個用戶同時提問時,這些記憶會爭搶顯存空間,導致無效讀寫、算力空轉。多層級的數據傳輸再壹拖,整體效率就塌了。

然後是交付:長文本輸出需要分片傳輸,稍有不慎就會卡頓、端到端延遲升高。

從頭到尾看下來,算力不是核心瓶頸。真正卡脖子的是顯存容量、讀取帶寬和通信延遲。

這個判斷,成了曦望的GPU所有設計選擇的出發點。以啟望S3為例,它做了兩個在國產 GPU 中少見的選擇:其壹是內存方案,它沒用訓練芯片慣用的 HBM,而是選了消費電子使用的低功耗內存(LPDDR)——因為推理需要的是大容量的內存,S3的顯存容量最高可達600GB。這也是國內顯存容量最大的GPU。

又因為 LPDDR 有不同規格(LPDDR6和 LPDDR5X 兼容),啟望S3可以靈活推出不同顯存版本,覆蓋從邊緣設備到雲端服務器的各種場景,不用重新設計芯片。壹套架構,多種配置。

其贰是通信方案,芯片和外界交換數據需要通道。啟望S3用了最新壹代的通道標准(PCIe Gen6),相當於把雙車道擴成肆車道,數據進出速度翻倍。同時,AI翻閱“前文記憶”的方式也做了分層,最常用的放手邊,偶爾用的放隔壁,很少用的放倉庫。多個用戶同時提問,不再互相擠占、互相拖慢。

去掉訓練模塊之後,省出來的晶體管和功耗全部集中投向推理加速。還是以啟望S3為例,在實際場景下,綜合算力利用率穩定在95%左右。這解決了傳統 GPU 壹個老毛病:標稱算力很高,實際跑起來用不滿,大量算力在空轉。高洋做了壹個比喻,這就像壹個100人的工廠,只有30個人在幹活,其余70個在等料。啟望S3做到了95%的利用率:100個人裡95個都在幹活,幾乎沒有浪費。

不過,壹顆芯片再強,也扛不住壹座 Token 工廠的體量。尤其到了 Agent 時代,長上下文、高並發,壹個任務動輒要成百上千顆芯片協同來算。所以在單顆 S3 之外,曦望還把芯片組裝成了更大的“算力單元”——超節點:用高速互連,在壹個互連域裡把最多 256 顆芯片連成壹體,對外像壹顆“超級芯片”;這樣的集群能扛住萬億參數大模型的高並發推理。

單芯片解決“每顆卡多省 Token”,集群解決壹座工廠穩定產 Token,兩件事,缺壹不可。

兼容性,則是另壹半。S3對 CUDA 生態兼容性做到了99%以上,已有的 AI Agent 和模型可以直接跑通,不用改代碼。就像換了壹台新電腦,但你原來裝的所有軟件、存的所有文件,插上就能用,不用重新安裝、重新配置。曦望走的是“軟硬同源”,硬件和軟件出自同壹個團隊、面向同壹個目標設計。軟件把同壹顆芯片榨出更多有效 Token。

推理GPU的Token生意

王湛對商業模式想得很清楚。八個字:創造價值,獲得收入。

對曦望來說,幫客戶把 Token 成本降下來,讓 AI Agent 跑得更好,這本身就是價值。客戶為產品付費,付的錢覆蓋成本、產生利潤,利潤再投入研發和招人,完成閉環。

但“幫客戶省錢”這件事,具體怎麼做?

曦望把當前的推理算力客戶歸為肆類,每類客戶盯的Token指標完全不同。

第壹類是智算中心。他們不怕“慢”,怕“閒”。傳統架構下GPU閒置率常超過40%,這些客戶盯的是每壹元錢出多少Token、每瓦特出多少Token,目標是讓每張卡同時跑更多任務,7×24不停機。

第贰類是互聯網和AI公司,他們不怕貴,怕“卡”。高並發、波峰波谷明顯,這類客戶願意為低延遲、高吞吐支付溢價。

第叁類是大型央國企和民企,用AI改造核心業務流程的企業。他們對數據安全有嚴格要求,數據壹個字節都不能出機房,這類客戶的工作負載穩定可預測,上下文通常很長。

第肆類是垂直行業,制造、金融、醫療、自動駕駛。他們缺AI專家,要的是開箱即用,買的是解決方案不是算力卡。

肆類客戶面貌迥異,但有壹個共同處境:都在從“壹次性燒錢訓練”走向“天天算賬跑推理”。推理成本,成了所有人的命門。

更有趣的是,Token服務的市場,正在出現明顯分化,壹部分是行業頭部玩家,他們靠技術提供高價值的服務,享受技術紅利,他們的毛利率可以做到60%以上;另壹部分則是大量同質化的服務,毛利率大概20%以下。

針對這樣的分化,王湛發現,Token的服務需要差異化,這背後其實是算力需求精細化的結果,作為算力提供方,需要讓不同質量的算力服務找到真正需要它的場景。

例如高價值任務,編程、醫療、法律分析,用戶追求高准確率和低延遲,對價格不敏感,這類服務的毛利率很好。低價值任務例如聊天、摘要、創意草稿,錯誤容忍度高,用戶極度價格敏感,毛利不高。

同壹個“推理市場”,其實是兩門截然不同的生意。

王湛說,過去客戶問的是:你多少 TFLOPS?多大顯存?現在問的是:我這個業務,你能不能跑得起、跑得便宜、跑得穩?“以前賣算力,現在變成賣算力的結果。”王湛說。

他對終局的判斷是:國內大模型很可能成為公共基礎設施,就像手機流量壹樣,Token 價格整體還是會持續變便宜。成本下降本身,就是需求爆炸的燃料。 Token 越便宜,原來跑不起的應用就都跑起來了,總需求反被放大。

“對我們做芯片的來說,這其實是最好的局面:我們把成本打下去,市場自己會變大。我們讓客戶賺錢,客戶就會更多的買,也讓我們賺錢。”王湛說。

這是曦望想扮演的角色:離台前的聚光燈很遠,卻離每壹個用Token創業的人很近。

以下為虎嗅訪談精選:

虎嗅:推理市場很大,但競爭也非常激烈,在曦望所在的推理算力賽道的競爭格局如何?

王湛:競爭確實激烈,但我想先把“激烈”這個詞拆開——推理算力這條賽道,其實不是壹鍋亂燉,它分幾個陣營。

大致是叁類玩家:第壹類是海外巨頭。問題是貴,在國內還疊加了供應與自主可控的不確定性。

第贰類,是訓推壹體GPU,已經有很多家上市的公司。

第叁類是專用芯片 ASIC。 對單壹模型效率極高,但太“死”,模型壹換就麻煩,更適合固定場景。

曦望選的是另壹個位置:做壹款真正為推理而生、又能兼容主流生態的通用 GPU:從架構定義起就為推理取舍,走容量優先的大顯存路線,再加上軟硬壹體。

虎嗅:訓練環節生態很重要,比如英偉達的CUDA,那推理這壹塊生態的重要性有多大?


王湛:生態和推理壹樣重要,但"重要"的含義,和訓練不是壹回事。訓練那套生態CUDA 是典型。它的厲害之處是“進得來、出不去”:你在上面寫代碼、調模型、攢了壹堆庫和工具,社區也都在那兒,時間壹長,遷移成本高到你根本不想走。

但推理的邏輯反過來了。推理階段,客戶手裡已經有訓好的模型了——他不是要重新開發,他就想把這個模型跑得更便宜、更穩。這時候他最在意的,不是“你的生態有多深”,而是“我搬過來要改多少東西”。所以推理這壹層,生態的關鍵詞從"鎖定"變成了"兼容":你能不能讓客戶的既有模型、既有應用,幾乎零改動就遷過來。誰遷移成本最低,誰就贏。

這是個很關鍵的差別——訓練的護城河,不會自動延伸到推理。 CUDA 在訓練上再強,到了推理,客戶要的是"跑得起、跑得便宜",而不是"再被鎖壹次"。這恰恰是給我們這樣的挑戰者留的門:我們不去重造壹個 CUDA,而是做到高度兼容主流生態,讓客戶搬家不疼。

但還有更深、也最容易被低估的壹層:推理的“生態”,重點不在開發框架,而在優化和運行時那壹層。因為推理拼的是單位 Token 成本,而成本是靠軟硬協同壹點點榨出來的——怎麼調度、怎麼管 KV-Cache、怎麼量化、怎麼把多卡之間的通信壓下去。這套系統軟件,才是推理時代真正的生態壁壘。它不是“把開發者鎖住”,而是“讓同壹顆芯片產出更多有效 Token”。

所以我們的打法是兩條腿:對外,高兼容,讓客戶零改動遷入;對內,軟硬同源,把硬件的每壹分性能用軟件榨幹淨。

虎嗅:半導體是壹個“贰八定律”非常明顯的行業,“老大吃肉、老贰喝湯”,以美國為例,英偉達壹家獨大,其他GPU公司幾乎沒有機會,中國市場是否還需要這麼多家GPU公司?

王湛:這個問題問得好,但我覺得它把兩件事混在了壹起:壹是“市場會不會向頭部集中”,贰是“中國需不需要這麼多家”。第壹件我同意,第贰件我有不同看法。

集中,壹定會發生,但它淘汰的是“同質化”,不是“數量”。 半導體確實是贏家通吃,可“通吃”是有邊界的,是在同壹個細分、同壹代技術裡通吃。今天真正的問題,不是GPU公司太多,而是很多家在做同壹件事,這種同質化,確實只能活下來壹兩家,該淘汰的會淘汰,這是健康的。但“需不需要這麼多家”,得看它們是不是在做不壹樣的事。

第贰,英偉達的護城河,是在“訓練”這個戰場上最深的,生態、先發、最強的通用算力。但推理是另壹個游戲:它更看重單位成本、顯存容量、能效,更碎片化、更貼場景。你看國外,推理這壹層其實也是百花齊放,各種專用芯片、雲廠商的自研芯片都在長出來。所以"老大吃肉、其他沒機會",是訓練時代的壹張快照,不是推理時代的結局。

第叁,中國市場的邏輯,還有國產芯片和國產模型推理之間天然的高契合度。回到你的問題:中國不需要“這麼多”做壹樣事情的 GPU 公司,但需要幾家在不同方向上做到不可替代的。我們的選擇,是在推理這條正在被重畫的新賽道上,找壹個別人替代不了的位置。

虎嗅:談談市場和商業模式,你觀察到的需求爆發的節點是什麼時候?

王湛:已經開始爆發了。之前訓練是壹錘子買賣,燒壹筆大的;現在推理是天天發生的運營開支,跟著用戶量、調用量壹直累積。以前賣算力,現在賣的是算力的結果。客戶很願意為“每壹個 Token 跑得多便宜、多穩”付錢。所以在我看來,需求爆發真正的標志,是大家開始為 Token 算賬了。

虎嗅:當Token需求爆發後,大家發現Token成本不斷下降但價格卻不斷上升,漲價會持續到什麼時候?

王湛:這恰恰說明壹件事:現在不是成本在定價,是供需在定價。

成本確實在快速下行,靠芯片效率和架構改進,行業每年能把單位 Token 成本壓掉六柒成。但價格還往上走,是因為需求漲得比成本降得更快:尤其 Agent 起來之後,壹個任務燒的 Token 是過去的幾拾倍,需求是指數級的;而算力、電力、數據中心這些供給端是線性的、還得排隊建。供給追不上需求的時候,定價權就從成本轉到了供應手裡。

而且得把兩個市場分開看。便宜的通用 Token,聊天、摘要這種——價格其實壹直在掉,在打價格戰;真正在漲的,是高價值、高門檻的 Token——Agent、編程、醫療、低延遲這類,需求旺、供給緊、還有差異化,價格自然撐得住、甚至往上走。所以“成本降、價格漲”,更准確的說法是“通用的在降、高價值的在漲”。

至於漲到什麼時候,我的看法是,會壹直持續到供給追上需求那壹天,而這壹天不會很快來。 兩個原因:壹是 Agent 才剛開始,Token 需求曲線還在最陡的那壹段;贰是產能建設沒那麼快,晶圓、內存和電這種硬供給,短期補不上。

還有壹層更反直覺的:成本下降本身,就是需求爆炸的燃料。 Token 越便宜,原來跑不起的應用就都跑起來了,總需求反被放大,所以“單位價格在降"和"總盤子、高價值那塊價格在漲",會長期同時存在。對我們做芯片的來說,這其實是最好的局面:你把成本打下去,市場自己會變大;我們讓客戶賺錢,客戶就會更多的買,也讓我們賺錢。

虎嗅:剛剛聊了關於Token商業模式的問題,如果未來Token真的變成類似流量、資費的存在,整個Token產業鏈上誰的話語權可能是最大的,是芯片廠商、模型廠商還是系統廠商?

王湛:我先潑盆冷水,別指望話語權會穩穩落在某壹層。就像流量——你看運營商,手裡握著網絡和牌照,最後卻成了“管道”,價值被上面的應用(微信抖音這些)拿走了;而設備商靠技術壁壘,話語權壹直都在。所以誰說了算,不取決於你在哪壹層,而取決於你在那壹層是不是稀缺、能不能被替代。放到 Token 這條鏈上,我的判斷是:中間的通用模型層,話語權只在最頭部玩家手上。開源模型壹出來、價格戰壹打,大部分模型就成了價格的接受者,只有最前沿那幾家能靠能力定價。

還有話語權的,會集中在兩端:壹端是定義單位成本的那壹層——算力生產端,誰能把每壹個 Token、每壹瓦電的成本做到最低,誰就握住了整條鏈的成本底盤,因為 Token 壹旦變成水電煤,比的就是成本和效率;另壹端是離需求最近、掌握運營規模的那壹層——雲、MaaS、運營商,誰掌握客戶和流量,誰就有定價權。

但有個前提:純賣某壹層,最容易被做成管道。 你只賣單顆芯片,就是個元器件供應商;只賣通用模型,就被價格戰碾。所以要把芯片、系統、軟件整合成“能穩定、低成本產高價值 Token 的能力”。說白了,話語權屬於“能把單位成本做到最低、又離需求最近”的那個角色,不屬於任何壹個孤立的層。

虎嗅:說到“國產模型配國芯”,你們如何布局這方面的生態?哪些選擇合作?哪些選擇希望自己做?

王湛:我們這事想得比較清楚,就定了壹條線:決定推理性價比、且別人替代不了的,自己做;專業分工更高效、能讓生態更繁榮的,交給伙伴。

先說自己做的,核心就兩塊——推理 GPU 芯片,和它上面那壹整套軟件。這兩件我們堅持軟硬同源、出自同壹個團隊。因為推理的性價比不來自某個單點最強,而來自軟硬件的協同:架構怎麼取舍、算子怎麼調度、顯存怎麼管理,必須芯片和軟件壹起設計才榨得出來。這層壹旦外包,差異化就沒了。所以從芯片架構,到基礎軟件棧、推理平台、再到兼容主流開發生態的編程模型,我們自己做。

合作的部分,主要是叁塊:

壹是模型。 我們不做大模型——這點很重要。我們要做的,是讓國產大模型在國產芯片上跑得又快又省。所以我們跟主流國產模型、開源模型做深度適配。“配”這個字的真義,就是把國產模型和國產芯片之間的適配損耗降到最低,而不是各做各的、硬湊在壹起。

贰是系統和工程。 壹座 Token 工廠不只有芯片,還有液冷、供電、服務器、集群。這些我們跟產業鏈伙伴壹起做超節點和整櫃方案,各出所長。

叁是行業落地。 每個行業的 know-how 我們不可能都懂,所以在金融、能源、制造這些場景,我們跟行業伙伴共建軟硬壹體的解決方案——我們出算力底座和工具,他們出場景理解。

最上面還有壹層是開放:我們把芯片的 IP 開放出來,允許伙伴在我們的技術之上定制他們自己的專屬芯片。這等於把生態的口子打開,讓它長出更多形態,而不是我們壹家通吃。

說到底,國產生態能不能成,關鍵不在於誰能壹家全包,而在於這條鏈上每壹環——模型、芯片、系統、應用——之間的"咬合"夠不夠緊。

虎嗅:現在AI領域還有哪些被低估、未來會被放大的機會,類似之前的光模塊?

王湛:第壹是存儲。 大家習慣把芯片的價值等同於算力,但其實存儲已經是推理系統裡成本占比最高的壹塊。那種大容量、低成本、低功耗的內存路線——被嚴重低估了。內存之於推理,差不多就是光模塊之於訓練集群的位置。

第贰是電和能效。 黃仁勳說未來的數據中心是“Token 工廠”,這句話還有半句沒說完:它是壹座“電變 Token 的工廠”,真正的天花板是電。所以散熱、液冷、供電,以及"每壹瓦能產出多少 Token"的能效,可以有新的變化。

第叁是數據。AI發展的叁要素是算法、算力、數據,現在算法層面各家大模型都在投入研發,算力層面有各類芯片公司在布局,但是數據領域還沒有出現頭部企業。

現在世界模型的概念越來越受重視,AI需要從只和網絡世界互動轉向和實體世界互動,這就需要大量之前網絡上沒有的高質量數據,就像自動駕駛需要大量車輛采集的實景訓練數據壹樣,這類高質量訓練數據的需求會越來越大,相關市場有很大的成長空間,未來很可能會出現相關的頭部企業。

AI 行業開始認真算賬了。不是只看模型能力,而是看 AI 是否真正進入業務、產生結果、跑出回報。

這也是虎嗅想追問的:錢燒哪了?幹成啥了?賺還是虧了?能復用嗎?

圍繞這肆問,我們將深度對話AI產業鏈條上的重要公司,沉澱AI賬本樣本庫;還將在7月WAIC期間推出系列直播、閉門會,與企業關鍵決策者共探AI生意。

詳情請戳,壹起見證AI時代商業落地的真實變化。

[加西網正招聘多名全職sales 待遇優]
還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  •  延伸閱讀
    月流水上千萬元?Token中轉站是壹門怎樣的生意 暴漲27倍 壹群華人賣Token 年入22億
    DeepSeek價格暴降90%!百萬token僅2分錢 Token經濟:壹場正在展開的"智能定價革命"
    "所有人都在談石油,但我覺得世界短缺的是Token 120萬億Token!中國AI正在"卷"死美國
    大廠只需要Token,不再需要活人(圖 壹天燒掉120萬億Token,字節震驚全球
    Token=詞元 Prompt=文令…這些AI術語的中文名定了 直擊GTC,老黃就指著你燒token了
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站