DeepSeek怎么赚钱?梁文峰的10万亿美元战略
论文(https://arxiv.org/pdf/2601.07372)于 2026 年第一季度推出,正如前面所说,它在某种意义上实现了“用内存(LPDDR)换算力”。下面的详细图表展示了在总体参数预算完全一致的情况下,Engram 带来的巨大性能跃升。

将计算与通信的重叠压榨到极致:诸如“双路径”(Dual Path)这样的底层魔改,表面上看是为了绕过硬件资源的封锁而被迫进行的闪转腾挪。但 DeepSeek 更进一步,甚至开始反过来对芯片硬件厂商的 ASIC 架构设计指点迷津,告诉他们如何设计芯片才能避免浪费哪怕一丝一毫宝贵的硅片资源。以下截图正是出自 DeepSeek V4 Pro 的官方文档:

对 TileLang 的重度投入:这明确无误地表明,他们的目光早已超越了自家算力紧缺的困境,而是致力于让整个中国硬件生态具备与西方掰手腕的竞争力。有了 TileLang(一种用于编写高性能算力内核的开源编程语言),工程师只需要编写一次算力内核代码,就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我预计国内其他 AI 实验室很快也会纷纷加入这个阵营——这将合力帮助中国硬件厂商从侧面解围,绕开英伟达坚不可摧的“CUDA 壁垒”(CUDA Moat,英伟达苦心经营数十年的专用并行计算架构生态,是其最宽的护城河)。同时,这也能顺便解放 AMD 等西方的其他硬件厂商。注:国内许多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 编译转换层。其中,摩尔线程、沐曦、壁仞和天数智芯是通过转换层实现与 CUDA 兼容度最高的几家中国芯片公司,理论上它们不需要 TileLang 的协助。

大规模强化学习与自动化科学研究:
随着计算需求的断崖式下降,以及可供选择的本土硬件变得越来越多,DeepSeek 终于能够放开手脚,去挑战那些此前让人望而却步的宏大训练计划——尤其是强化学习阶段的后训练(Post-training)。强化学习需要生成海量的思考轨迹(Trajectories),动辄就会产生数万亿的 Token,这在过去烧钱速度极其恐怖。此外,要训练出支持 100 万上下文的模型,你就必须生成同样长度的思考轨迹。只有让模型在这种超长轨迹中经受锤炼,才能真正解锁解决复杂长程任务的能力。
[加西网正招聘多名全职sales 待遇优]
已经有 2 人参与评论了, 我也来说几句吧

将计算与通信的重叠压榨到极致:诸如“双路径”(Dual Path)这样的底层魔改,表面上看是为了绕过硬件资源的封锁而被迫进行的闪转腾挪。但 DeepSeek 更进一步,甚至开始反过来对芯片硬件厂商的 ASIC 架构设计指点迷津,告诉他们如何设计芯片才能避免浪费哪怕一丝一毫宝贵的硅片资源。以下截图正是出自 DeepSeek V4 Pro 的官方文档:

对 TileLang 的重度投入:这明确无误地表明,他们的目光早已超越了自家算力紧缺的困境,而是致力于让整个中国硬件生态具备与西方掰手腕的竞争力。有了 TileLang(一种用于编写高性能算力内核的开源编程语言),工程师只需要编写一次算力内核代码,就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我预计国内其他 AI 实验室很快也会纷纷加入这个阵营——这将合力帮助中国硬件厂商从侧面解围,绕开英伟达坚不可摧的“CUDA 壁垒”(CUDA Moat,英伟达苦心经营数十年的专用并行计算架构生态,是其最宽的护城河)。同时,这也能顺便解放 AMD 等西方的其他硬件厂商。注:国内许多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 编译转换层。其中,摩尔线程、沐曦、壁仞和天数智芯是通过转换层实现与 CUDA 兼容度最高的几家中国芯片公司,理论上它们不需要 TileLang 的协助。

大规模强化学习与自动化科学研究:
随着计算需求的断崖式下降,以及可供选择的本土硬件变得越来越多,DeepSeek 终于能够放开手脚,去挑战那些此前让人望而却步的宏大训练计划——尤其是强化学习阶段的后训练(Post-training)。强化学习需要生成海量的思考轨迹(Trajectories),动辄就会产生数万亿的 Token,这在过去烧钱速度极其恐怖。此外,要训练出支持 100 万上下文的模型,你就必须生成同样长度的思考轨迹。只有让模型在这种超长轨迹中经受锤炼,才能真正解锁解决复杂长程任务的能力。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
DeepSeek怎么赚钱?梁文峰的10万亿美元战略