DeepSeek怎么赚钱?梁文峰的10万亿美元战略

2026-05-24 | 来源: AI普瑞斯 | 有2人参与评论 | 字体: 放大缩小 | 收藏 | 打印

他们从“第一性原理”（First Principles）出发，发明了全新的 GRPO 算法，取代了在强化学习（RL, Reinforcement Learning）中虽然占据统治地位、但实现成本极高的 PPO 算法。

他们摸索出了基于验证奖励的强化学习（RLVR, Reinforcement Learning from Verified Rewards），并将其作为提升模型推理能力的杀手锏。

他们通过“多 Token 预测”（MTP, Multi-Token Prediction）提出了一种绝妙的投机解码（Speculative Decoding，一种通过预判后续单词来加速大模型生成速度的技术）策略，同时还让训练信号变得更加密集。

他们完美打造了“零气泡”（Zero-Bubble）流水线并行技术，把有限的 GPU 资源压榨到了极致。

他们开源了专家负载均衡器（Expert Load Balancer），让所有人都能轻松部署混合专家模型。特别是通过“宽专家并行”（Wide Expert Parallel）策略，模型可以在大批次下运行，使得服务成本大幅降低。

他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术，极大地缩减了 KV 缓存（KV Cache，大模型推理时用于存储历史对话记忆的显存空间）的需求，让计算需求在面对无限拉长的上下文时几乎保持恒定。

他们发明了 Engram（印迹模块），实现了用内存换算力的神奇操作。

他们发明了 mHC（修正超连接），解决了模型体量暴增时的训练稳定性难题。这个创新清单还能一直列下去……

在英雄之旅这个最经典的叙事结构里，主角一开始并不知道自己的终极使命是什么。他是在一路上摸爬滚打，逐渐领悟了伟大的天命，然后排除万难去完成它。在这个过程中，他会遇到无数的冷嘲热讽，但他选择无视；他会遇到不怀好意的对手；他本身也有致命的弱点或短板——但他最终战胜了自我，达成了使命。他直面那些看似无法逾越的难关，却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呐喊。这也是为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同时，也招来了不少争议。

接下来我将为你详细拆解，DeepSeek 在这条路上已经走得足够远，并且已经窥见了他们的终极宿命：他们的格局根本不是卖什么编程订阅，而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈，并以此顺理成章地让自己斩获 1 万亿美元的市值。在这个过程中，他们甚至还会顺手帮一把西方硬件生态中的一众新玩家。

欢迎大家探讨与指正。

先来算一笔好玩的 KV 缓存账：

来看看知名半导体分析机构 @SemiAnalysis_发布的这条非常及时的推文：

[物价飞涨的时候这样省钱购物很爽] 已经有 2 人参与评论了, 我也来说几句吧

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论

评论1	游客 [爱.能.外.箸]	2026-05-25 03:21
10万亿美元？蛋糕有那么大？咋不说60万亿，全球60亿人平均每人给他贡献1万美元？反正傻货们不会算账，吹呗！赞踩 1 回复 0

发表评论

专家专栏

工具

当前会员

DeepSeek怎么赚钱?梁文峰的10万亿美元战略

意见