DeepSeek塞进苹果本儿分币不花实现"龙虾自由"

2026-05-10 | 来源: 钛媒体 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

过去大家想在自己电脑上跑大模型，普遍用的都是llama.cpp这个工具。它的好处是什么模型都能跑，Llama、Qwen、DeepSeek全都支持。

可问题就是，什么都能跑，就意味着什么都跑不到最快。为了照顾所有模型，llama.cpp必须做很多妥协，性能上不可能做到极致。

antirez的想法正好相反，他才不管别的模型死活，他就专门伺候DeepSeek V4 Flash这一个，把它优化到极限。

他一共做了3件事。

第一件事，是不对称的2-bit量化。

DeepSeek V4 Flash的架构是MoE（Mixture of Experts），284B总参数里，每次推理只激活13B，这13B是路由挑出来的若干个专家子网络。

就像一个工具箱里有284把工具，每次只拿出13把来用。这284B里面，有一大堆“备选专家”占了90%以上的空间，但它们不是每次都用，只是候补。

antirez的做法是，只对这批routed experts做激进的2-bit量化，up和gate矩阵用IQ2_XXS，down矩阵用Q2_K，而模型里所有关键路径上的组件，包括shared experts、projections、routing网络，全部保持原始精度不动。

也就是说，antirez把这些“候补专家”狠狠压缩，压到只剩原来1/4的大小，但那些每次都要用的核心组件，一点都不动，保持原样。

这是一种不对称的压缩策略，砍掉体积大头，保住质量命脉。

第二件事，是把KV Cache搬到SSD上。

DeepSeek V4 Flash支持100万token的上下文，这相当于你可以把一整本小说扔给它，它能全记住。

但这么长的上下文，意味着AI在工作时要不停地回头翻看前面的内容。为了让这个“回头翻看”的动作不至于慢到卡死，AI需要把这些内容暂存在一个叫“缓存”的地方，方便随时调用。

以前的做法是把这个缓存放在内存里。内存速度快，AI每次生成一个字都要频繁查这个缓存，所以必须放内存。

但问题是，如果让128GB内存的MacBook Pro跑DeepSeek-V4 Flash，光缓存就能把内存吃光，模型本身都没地方放了。

所以antirez的做法是直接把缓存扔到硬盘（SSD）上。ds4把一部分KV状态做成可落盘、可恢复的缓存，让长提示词和agent反复续写时，不必每次从头处理。

这听起来有点离谱，因为硬盘比内存慢多了。

然而现代Mac SSD足够快，适合做KV缓存持久化和恢复。加上DeepSeek V4 Flash本身对缓存做过压缩，读写量不大，所以硬盘完全顶得住。

结果就是内存省出来了，100万token的超长对话真的在一台MacBook上跑起来了。

不过这不等于128GB MacBook可以毫无压力地把100万token全部拉满。

按照ds4自己的说明，2-bit模型本身已经要占掉大约80GB级别的内存，真正日常使用时，100k到300k上下文会更现实一点。

第三件事，是纯Metal原生路径。

antirez把所有优化都押在苹果电脑的GPU上。

因此他专门为苹果芯片写了一套代码，让DeepSeek V4 Flash能在苹果电脑上跑得飞快。

至于CPU，并不是这个项目的重点。README里也写得很直白，CPU模式目前还不稳定，甚至可能触发系统崩溃。antirez进一步表示，如果有人真想走这条路，后续大概还得靠社区来补救。

[加西网正招聘多名全职sales 待遇优] 无评论不新闻，发表一下您的意见吧

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍