暴涨27倍 一群华人卖Token 年入22亿
另外两位华人联合创始人:Benny Chen曾在Meta做到首席软件工程师;Chenyu Zhao则长期负责Google Cloud Vertex AI相关业务。
这家公司不训练大模型,也不直接做AI应用。它做的事情很简单:帮企业运行各种开源模型,然后按Token收费。
目前,其支持的模型包括DeepSeek、Kimi、MiniMax等多家开源或开放API模型。
开发者无需自己购买GPU、搭建推理集群或进行底层优化,即可通过兼容OpenAI格式的API直接调用。
而Fireworks AI则按调用量收费。AI应用跑得越猛,它赚得越多。目前,全球最火的AI编程工具之一Cursor,就是其客户。
据官方披露:Cursor在Fireworks AI平台上,已经实现1000 token/秒的生成速度。
钱从“训练”流向“调用”
过去两年,AI行业最烧钱的地方,是训练。
OpenAI、Google、Anthropic、xAI都在疯狂囤GPU,单轮大模型训练成本动辄数亿美元。
但现在,一个变化开始越来越明显:模型训练越来越像“一次性投入”,而推理调用开始变成“长期收费”。
算力结构已经彻底反转:2023年,全球AI算力中训练占2/3、推理仅1/3;到2026年,推理占比飙升至65%–70%,是训练算力的4.5倍。
在中国,这一趋势更极端 ——推理算力已是训练算力的8倍。英伟达黄仁勋甚至判断:未来推理规模将达到训练负载的十亿倍。
市场规模同样爆发:Lightspeed此前披露:过去3年,AI推理市场已经从0增长到超过50亿美元。
资本也开始疯狂涌入这一赛道。
除了Fireworks AI,Baseten最近被曝出正以110亿美元估值融资,Together AI估值达到75亿美元,Modal估值46.5亿美元,Fal估值45亿美元。
其中,Baseten在2026年1月刚完成一轮融资估值50亿美元,5个月后新一轮融资估值直接翻倍至110亿美元。
更夸张的是收入增速。
据The Information报道:Baseten年化收入已经从2026年初的2亿美元,增长到Q1末的6亿美元。3个月,增长200%。
这些公司有一个共同特点:它们都不直接做大模型,而是帮整个AI行业“跑模型”——做AI时代的“卖水人”,靠永续的Token调用收费,赚取长期、稳定的现金流。
NVIDIA等巨头进场投资
Fireworks AI背后的投资方越来越豪华。其股东包括Lightspeed、Index Ventures、红杉资本,以及NVIDIA和AMD。
原因很现实:AI应用爆发后,整个行业真正稀缺的东西开始变成GPU,而推理平台本质上是在帮助整个行业更高效率地使用GPU。
NVIDIA此前曾公开表示:基于Blackwell架构的新一代推理系统,已经将单Token成本降低约10倍。在部分大模型场景下,成本甚至可降至原来的1/35。
这意味着,DeepSeek、Llama 3、Kimi等开源模型,在推理成本上已接近甚至挑战GPT-4等闭源API,性价比拐点正式到来。
而谁能把Token成本压得更低,谁就更容易拿下AI应用公司。
目前,Fireworks AI估值对应约3.15亿美元ARR,市销率约47倍。放在2023年AI泡沫期,这个数字不算离谱。
横向对比同行:Together AI估值75亿美元、对应ARR约1.5亿美元,市销率约50倍;Baseten估值110亿美元、对应ARR约6亿美元,市销率约18倍。
放在2023年AI泡沫期,头部AI公司市销率普遍在80–150倍,这个数字不算离谱;在2026年,这种估值仍能成立,核心原因是AI调用量仍在爆炸式增长。
Fireworks AI的平台日Token处理量,已从2025年底的10万亿增长到2026年5月的15万亿,5个月增长50%。按此增速,2026年底有望突破25万亿 / 日,全年处理量将超7000万亿Token——相当于为全球AI应用提供了近1/5的推理算力支撑。
中国,何时出现千亿公司?
[加西网正招聘多名全职sales 待遇优]
好新闻没人评论怎么行,我来说几句
这家公司不训练大模型,也不直接做AI应用。它做的事情很简单:帮企业运行各种开源模型,然后按Token收费。
目前,其支持的模型包括DeepSeek、Kimi、MiniMax等多家开源或开放API模型。
开发者无需自己购买GPU、搭建推理集群或进行底层优化,即可通过兼容OpenAI格式的API直接调用。
而Fireworks AI则按调用量收费。AI应用跑得越猛,它赚得越多。目前,全球最火的AI编程工具之一Cursor,就是其客户。
据官方披露:Cursor在Fireworks AI平台上,已经实现1000 token/秒的生成速度。
钱从“训练”流向“调用”
过去两年,AI行业最烧钱的地方,是训练。
OpenAI、Google、Anthropic、xAI都在疯狂囤GPU,单轮大模型训练成本动辄数亿美元。
但现在,一个变化开始越来越明显:模型训练越来越像“一次性投入”,而推理调用开始变成“长期收费”。
算力结构已经彻底反转:2023年,全球AI算力中训练占2/3、推理仅1/3;到2026年,推理占比飙升至65%–70%,是训练算力的4.5倍。
在中国,这一趋势更极端 ——推理算力已是训练算力的8倍。英伟达黄仁勋甚至判断:未来推理规模将达到训练负载的十亿倍。
市场规模同样爆发:Lightspeed此前披露:过去3年,AI推理市场已经从0增长到超过50亿美元。
资本也开始疯狂涌入这一赛道。
除了Fireworks AI,Baseten最近被曝出正以110亿美元估值融资,Together AI估值达到75亿美元,Modal估值46.5亿美元,Fal估值45亿美元。
其中,Baseten在2026年1月刚完成一轮融资估值50亿美元,5个月后新一轮融资估值直接翻倍至110亿美元。
更夸张的是收入增速。
据The Information报道:Baseten年化收入已经从2026年初的2亿美元,增长到Q1末的6亿美元。3个月,增长200%。
这些公司有一个共同特点:它们都不直接做大模型,而是帮整个AI行业“跑模型”——做AI时代的“卖水人”,靠永续的Token调用收费,赚取长期、稳定的现金流。
NVIDIA等巨头进场投资
Fireworks AI背后的投资方越来越豪华。其股东包括Lightspeed、Index Ventures、红杉资本,以及NVIDIA和AMD。
原因很现实:AI应用爆发后,整个行业真正稀缺的东西开始变成GPU,而推理平台本质上是在帮助整个行业更高效率地使用GPU。
NVIDIA此前曾公开表示:基于Blackwell架构的新一代推理系统,已经将单Token成本降低约10倍。在部分大模型场景下,成本甚至可降至原来的1/35。
这意味着,DeepSeek、Llama 3、Kimi等开源模型,在推理成本上已接近甚至挑战GPT-4等闭源API,性价比拐点正式到来。
而谁能把Token成本压得更低,谁就更容易拿下AI应用公司。
目前,Fireworks AI估值对应约3.15亿美元ARR,市销率约47倍。放在2023年AI泡沫期,这个数字不算离谱。
横向对比同行:Together AI估值75亿美元、对应ARR约1.5亿美元,市销率约50倍;Baseten估值110亿美元、对应ARR约6亿美元,市销率约18倍。
放在2023年AI泡沫期,头部AI公司市销率普遍在80–150倍,这个数字不算离谱;在2026年,这种估值仍能成立,核心原因是AI调用量仍在爆炸式增长。
Fireworks AI的平台日Token处理量,已从2025年底的10万亿增长到2026年5月的15万亿,5个月增长50%。按此增速,2026年底有望突破25万亿 / 日,全年处理量将超7000万亿Token——相当于为全球AI应用提供了近1/5的推理算力支撑。
中国,何时出现千亿公司?
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:



