DeepSeek塞進蘋果本兒分幣不花實現"龍蝦自由"

2026-05-10 | 來源: 鈦媒體 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

過去大家想在自己電腦上跑大模型，普遍用的都是llama.cpp這個工具。它的好處是什麼模型都能跑，Llama、Qwen、DeepSeek全都支持。

可問題就是，什麼都能跑，就意味著什麼都跑不到最快。為了照顧所有模型，llama.cpp必須做很多妥協，性能上不可能做到極致。

antirez的想法正好相反，他才不管別的模型死活，他就專門伺候DeepSeek V4 Flash這壹個，把它優化到極限。

他壹共做了3件事。

第壹件事，是不對稱的2-bit量化。

DeepSeek V4 Flash的架構是MoE（Mixture of Experts），284B總參數裡，每次推理只激活13B，這13B是路由挑出來的若幹個專家子網絡。

就像壹個工具箱裡有284把工具，每次只拿出13把來用。這284B裡面，有壹大堆“備選專家”占了90%以上的空間，但它們不是每次都用，只是候補。

antirez的做法是，只對這批routed experts做激進的2-bit量化，up和gate矩陣用IQ2_XXS，down矩陣用Q2_K，而模型裡所有關鍵路徑上的組件，包括shared experts、projections、routing網絡，全部保持原始精度不動。

也就是說，antirez把這些“候補專家”狠狠壓縮，壓到只剩原來1/4的大小，但那些每次都要用的核心組件，壹點都不動，保持原樣。

這是壹種不對稱的壓縮策略，砍掉體積大頭，保住質量命脈。

第贰件事，是把KV Cache搬到SSD上。

DeepSeek V4 Flash支持100萬token的上下文，這相當於你可以把壹整本小說扔給它，它能全記住。

但這麼長的上下文，意味著AI在工作時要不停地回頭翻看前面的內容。為了讓這個“回頭翻看”的動作不至於慢到卡死，AI需要把這些內容暫存在壹個叫“緩存”的地方，方便隨時調用。

以前的做法是把這個緩存放在內存裡。內存速度快，AI每次生成壹個字都要頻繁查這個緩存，所以必須放內存。

但問題是，如果讓128GB內存的MacBook Pro跑DeepSeek-V4 Flash，光緩存就能把內存吃光，模型本身都沒地方放了。

所以antirez的做法是直接把緩存扔到硬盤（SSD）上。ds4把壹部分KV狀態做成可落盤、可恢復的緩存，讓長提示詞和agent反復續寫時，不必每次從頭處理。

這聽起來有點離譜，因為硬盤比內存慢多了。

然而現代Mac SSD足夠快，適合做KV緩存持久化和恢復。加上DeepSeek V4 Flash本身對緩存做過壓縮，讀寫量不大，所以硬盤完全頂得住。

結果就是內存省出來了，100萬token的超長對話真的在壹台MacBook上跑起來了。

不過這不等於128GB MacBook可以毫無壓力地把100萬token全部拉滿。

按照ds4自己的說明，2-bit模型本身已經要占掉大約80GB級別的內存，真正日常使用時，100k到300k上下文會更現實壹點。

第叁件事，是純Metal原生路徑。

antirez把所有優化都押在蘋果電腦的GPU上。

因此他專門為蘋果芯片寫了壹套代碼，讓DeepSeek V4 Flash能在蘋果電腦上跑得飛快。

至於CPU，並不是這個項目的重點。README裡也寫得很直白，CPU模式目前還不穩定，甚至可能觸發系統崩潰。antirez進壹步表示，如果有人真想走這條路，後續大概還得靠社區來補救。

[加西網正招聘多名全職sales 待遇優] 無評論不新聞，發表壹下您的意見吧

分享:

上壹頁 123 4 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍