DeepSeek怎么赚钱?梁文峰的10万亿美元战略
他们从“第一性原理”(First Principles)出发,发明了全新的 GRPO 算法,取代了在强化学习(RL, Reinforcement Learning)中虽然占据统治地位、但实现成本极高的 PPO 算法。
他们摸索出了基于验证奖励的强化学习(RLVR, Reinforcement Learning from Verified Rewards),并将其作为提升模型推理能力的杀手锏。
他们通过“多 Token 预测”(MTP, Multi-Token Prediction)提出了一种绝妙的投机解码(Speculative Decoding,一种通过预判后续单词来加速大模型生成速度的技术)策略,同时还让训练信号变得更加密集。
他们完美打造了“零气泡”(Zero-Bubble)流水线并行技术,把有限的 GPU 资源压榨到了极致。
他们开源了专家负载均衡器(Expert Load Balancer),让所有人都能轻松部署混合专家模型。特别是通过“宽专家并行”(Wide Expert Parallel)策略,模型可以在大批次下运行,使得服务成本大幅降低。
他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术,极大地缩减了 KV 缓存(KV Cache,大模型推理时用于存储历史对话记忆的显存空间)的需求,让计算需求在面对无限拉长的上下文时几乎保持恒定。
他们发明了 Engram(印迹模块),实现了用内存换算力的神奇操作。
他们发明了 mHC(修正超连接),解决了模型体量暴增时的训练稳定性难题。这个创新清单还能一直列下去……
在英雄之旅这个最经典的叙事结构里,主角一开始并不知道自己的终极使命是什么。他是在一路上摸爬滚打,逐渐领悟了伟大的天命,然后排除万难去完成它。在这个过程中,他会遇到无数的冷嘲热讽,但他选择无视;他会遇到不怀好意的对手;他本身也有致命的弱点或短板——但他最终战胜了自我,达成了使命。他直面那些看似无法逾越的难关,却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呐喊。这也是为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同时,也招来了不少争议。
接下来我将为你详细拆解,DeepSeek 在这条路上已经走得足够远,并且已经窥见了他们的终极宿命:他们的格局根本不是卖什么编程订阅,而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈,并以此顺理成章地让自己斩获 1 万亿美元的市值。在这个过程中,他们甚至还会顺手帮一把西方硬件生态中的一众新玩家。
欢迎大家探讨与指正。

先来算一笔好玩的 KV 缓存账:
来看看知名半导体分析机构 @SemiAnalysis_发布的这条非常及时的推文:

[物价飞涨的时候 这样省钱购物很爽]
已经有 2 人参与评论了, 我也来说几句吧
他们摸索出了基于验证奖励的强化学习(RLVR, Reinforcement Learning from Verified Rewards),并将其作为提升模型推理能力的杀手锏。
他们通过“多 Token 预测”(MTP, Multi-Token Prediction)提出了一种绝妙的投机解码(Speculative Decoding,一种通过预判后续单词来加速大模型生成速度的技术)策略,同时还让训练信号变得更加密集。
他们完美打造了“零气泡”(Zero-Bubble)流水线并行技术,把有限的 GPU 资源压榨到了极致。
他们开源了专家负载均衡器(Expert Load Balancer),让所有人都能轻松部署混合专家模型。特别是通过“宽专家并行”(Wide Expert Parallel)策略,模型可以在大批次下运行,使得服务成本大幅降低。
他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术,极大地缩减了 KV 缓存(KV Cache,大模型推理时用于存储历史对话记忆的显存空间)的需求,让计算需求在面对无限拉长的上下文时几乎保持恒定。
他们发明了 Engram(印迹模块),实现了用内存换算力的神奇操作。
他们发明了 mHC(修正超连接),解决了模型体量暴增时的训练稳定性难题。这个创新清单还能一直列下去……
在英雄之旅这个最经典的叙事结构里,主角一开始并不知道自己的终极使命是什么。他是在一路上摸爬滚打,逐渐领悟了伟大的天命,然后排除万难去完成它。在这个过程中,他会遇到无数的冷嘲热讽,但他选择无视;他会遇到不怀好意的对手;他本身也有致命的弱点或短板——但他最终战胜了自我,达成了使命。他直面那些看似无法逾越的难关,却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呐喊。这也是为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同时,也招来了不少争议。
接下来我将为你详细拆解,DeepSeek 在这条路上已经走得足够远,并且已经窥见了他们的终极宿命:他们的格局根本不是卖什么编程订阅,而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈,并以此顺理成章地让自己斩获 1 万亿美元的市值。在这个过程中,他们甚至还会顺手帮一把西方硬件生态中的一众新玩家。
欢迎大家探讨与指正。

先来算一笔好玩的 KV 缓存账:
来看看知名半导体分析机构 @SemiAnalysis_发布的这条非常及时的推文:

[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
DeepSeek怎么赚钱?梁文峰的10万亿美元战略