Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_a20650a0283a7bfd30c6e67e11b54510, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
DeepSeek塞進蘋果本兒 分幣不花實現"龍蝦自由" | 溫哥華地產中心
   

DeepSeek塞進蘋果本兒 分幣不花實現"龍蝦自由"




在agent時代最貴的是什麼?是token。

壹些重度agent使用者,壹個月用掉幾億token,賬單小幾萬塊錢也是常有的事。

然而現在開始,有這麼壹個開發者他開源了壹個本地方案,壹台蘋果筆記本就能部署,也就是說,你從此實現了“龍蝦自由”,跑再多任務,也不會再為token付出壹分錢了。最關鍵的是,他用的還是DeeSeek V4 Falsh。

幾天前,antirez在GitHub上發布了壹個項目,叫ds4。

這是壹個專門為DeepSeek V4 Flash寫的推理引擎。壹共幾千行C代碼,可以讓DeepSeek V4 Flash這個模型在128G內存的蘋果電腦上跑起來。

開發者antirez,本名Salvatore Sanfilippo,是意大利程序員,同時他也是開源數據庫Redis的原作者。Redis後來成為全球互聯網基礎設施裡最常用的內存數據庫之壹。

往好的方面去想,DeepSeek影響力足夠大,吸引到了圈內頂流的程序員,但是壞的方面是,DeepSeek這回真的免費了。

任何開發者都可以用ds4,去把DeepSeek V4 Flash裝進自己的MacBook Pro裡,本地跑代碼、本地讀上下文、本地做agent任務,而這壹切的壹切,不需要給DeepSeek付1分錢。

雖然DeepSeek V4 Flash本身開源,可FP16精度的原始模型要吃掉284G內存,顯存需求更是高達160G。

因此,想運行它,你至少得有兩張英偉達A100 80GB、壹條512GB DDR5 ECC內存,以及壹個4TB NVMe SSD。總成本50萬人民幣(专题)。

而現在,壹台3萬塊錢的MacBook Pro就能跑。

那antirez為什麼偏偏選中DeepSeek V4 Flash呢?

原因是DeepSeek最適合被“塞進本地電腦”。

它有284B總參數,足夠大;但每次推理只激活13B參數,又不像傳統大模型那樣沉重。

它支持100萬token上下文,適合編程助手這種長任務;同時KV cache壓縮得足夠狠,給本地內存和SSD留下了操作空間。

DeepSeek V4 Flash剛好站在了這樣壹個神奇的平衡點上,既大到值得折騰,又小到能被塞進蘋果筆記本裡。



YC的CEO Garry Tan在X上轉了這條消息,只打了壹行字:正在下載……100萬token上下文窗口,可用的編程助手能力,全在壹台128GB的MacBook Pro上,太瘋狂了。

ds4究竟是什麼?

先說結論,ds4不是壹個模型,它是壹台“專用發動機”。DeepSeek V4 Flash是車,蘋果電腦是路,ds4負責把這輛原本更適合跑在雲端的大車,改到本地機器上能跑、能接API、還能被coding agent調用。



過去大家想在自己電腦上跑大模型,普遍用的都是llama.cpp這個工具。它的好處是什麼模型都能跑,Llama、Qwen、DeepSeek全都支持。

可問題就是,什麼都能跑,就意味著什麼都跑不到最快。為了照顧所有模型,llama.cpp必須做很多妥協,性能上不可能做到極致。

antirez的想法正好相反,他才不管別的模型死活,他就專門伺候DeepSeek V4 Flash這壹個,把它優化到極限。

他壹共做了3件事。

第壹件事,是不對稱的2-bit量化。

DeepSeek V4 Flash的架構是MoE(Mixture of Experts),284B總參數裡,每次推理只激活13B,這13B是路由挑出來的若幹個專家子網絡。

就像壹個工具箱裡有284把工具,每次只拿出13把來用。這284B裡面,有壹大堆“備選專家”占了90%以上的空間,但它們不是每次都用,只是候補。

antirez的做法是,只對這批routed experts做激進的2-bit量化,up和gate矩陣用IQ2_XXS,down矩陣用Q2_K,而模型裡所有關鍵路徑上的組件,包括shared experts、projections、routing網絡,全部保持原始精度不動。

也就是說,antirez把這些“候補專家”狠狠壓縮,壓到只剩原來1/4的大小,但那些每次都要用的核心組件,壹點都不動,保持原樣。

這是壹種不對稱的壓縮策略,砍掉體積大頭,保住質量命脈。

第贰件事,是把KV Cache搬到SSD上。

DeepSeek V4 Flash支持100萬token的上下文,這相當於你可以把壹整本小說扔給它,它能全記住。

但這麼長的上下文,意味著AI在工作時要不停地回頭翻看前面的內容。為了讓這個“回頭翻看”的動作不至於慢到卡死,AI需要把這些內容暫存在壹個叫“緩存”的地方,方便隨時調用。

以前的做法是把這個緩存放在內存裡。內存速度快,AI每次生成壹個字都要頻繁查這個緩存,所以必須放內存。

但問題是,如果讓128GB內存的MacBook Pro跑DeepSeek-V4 Flash,光緩存就能把內存吃光,模型本身都沒地方放了。

所以antirez的做法是直接把緩存扔到硬盤(SSD)上。ds4把壹部分KV狀態做成可落盤、可恢復的緩存,讓長提示詞和agent反復續寫時,不必每次從頭處理。

這聽起來有點離譜,因為硬盤比內存慢多了。

然而現代Mac SSD足夠快,適合做KV緩存持久化和恢復。加上DeepSeek V4 Flash本身對緩存做過壓縮,讀寫量不大,所以硬盤完全頂得住。

結果就是內存省出來了,100萬token的超長對話真的在壹台MacBook上跑起來了。

不過這不等於128GB MacBook可以毫無壓力地把100萬token全部拉滿。

按照ds4自己的說明,2-bit模型本身已經要占掉大約80GB級別的內存,真正日常使用時,100k到300k上下文會更現實壹點。

第叁件事,是純Metal原生路徑。

antirez把所有優化都押在蘋果電腦的GPU上。

因此他專門為蘋果芯片寫了壹套代碼,讓DeepSeek V4 Flash能在蘋果電腦上跑得飛快。

至於CPU,並不是這個項目的重點。README裡也寫得很直白,CPU模式目前還不穩定,甚至可能觸發系統崩潰。antirez進壹步表示,如果有人真想走這條路,後續大概還得靠社區來補救。

在M3 Max 128GB的MacBook Pro上,實測速度是每秒能生成26個字左右。M3 Ultra 512GB的Mac Studio上能跑到每秒36個字。

不算快,但寫代碼、調試這些日常工作完全夠用。

更有意思的是,antirez是獨自壹人通過GPT-5.5完成的整個這個項目。

利好DeepSeek

根據外媒報道,DeepSeek目前正在尋求高達73.5億美元的融資,梁文鋒現在就處在這個關鍵的轉折點上,用商業敘事取代DeepSeek過往的技術敘事。

投資人看什麼?不只是看模型跑分,不只是看API調用量,更看生態位和不可替代性。

壹個海外知名開發大佬,願意為你的模型寫專用引擎,這本身就說明DeepSeek在海外有著壹定的生態地位。

過去壹年,中國開源模型的出海敘事裡,主流衡量標准是benchmark,MMLU、HumanEval、SWE-bench,壹串又壹串的數字。

但有人願意圍繞你做贰次工程,才代表你的模型被認可了。Anthropic用千問做實驗,Cursor蒸餾Kimi,這種認可比分數更值錢。

antirez不是AI圈裡那種什麼新模型都要試壹遍的博主

他選壹個模型,然後還要花幾周的時間去寫專用推理引擎、做特制量化、搭HTTP服務層、做agent集成測試,顯然是他認為DeepSeek值得。

這就變相等於,壹個有信譽的第叁方,在用自己的時間和名聲給DeepSeek-V4背書。

說到國產模型出海,目前我能想到的路有兩條。

壹條是API被調用。你提供服務,別人付費使用,你是service provider,客戶是consumer。

這條路很直接,也很現實,別人可以隨時切換,你無時無刻都得對抗你的競品,從性能到價格。

另壹條是模型被改造。有人把你的權重拿走,做量化、做蒸餾、做專用runtime、做本地部署、做agent工具鏈。在這條路裡,你的模型成了材料。

材料和服務的區別在於,材料會被嵌入到別人的工具鏈裡,然後就很難被換掉了。

舉個例子,某個開發者把ds4集成到自己的coding agent裡,寫了壹堆配置文件、調試腳本、自動化流程。他的團隊成員也都習慣了這套工具,公司的代碼庫裡到處都是基於DeepSeek本地推理的調用。

這時候如果要換成別的模型,就不是“改個API key”那麼簡單了,而是要重新適配引擎、重寫腳本、重新培訓團隊習慣。成本太高,大概率就不換了。

這就是“被嵌入”的粘性。

ds4把DeepSeek V4 Flash嵌進了Metal原生本地推理這個場景。截至發稿,Hugging Face上antirez那個deepseek-v4-gguf倉庫,就已經有25000次下載了。



每壹次下載,都意味著有人在自己的機器上跑起了DeepSeek,粘性也就這麼壹點壹點的建立起來了。

更值得注意的是連鎖效應。

Hacker News上有這樣壹條高贊評論,他說如果以後針對精確的GPU加模型組合構建超優化推理引擎會怎樣?GPU越來越貴,抽象層去掉得越多,優化空間就越大。


這個方向壹旦被驗證,意味著每壹代有分量的開源模型發布時,都會有人跳出來給它做專屬引擎、專屬量化、專屬agent接入。

相當於是每壹代模型都應該有壹個自己的“antirez”,開發出壹個自己的“ds4”。

DeepSeek V4 Flash正好踩在了這個起點上。

如果這套邏輯成立,那麼後續每個V4 Flash的小版本迭代,都會天然地被嵌入到這個“壹代模型配壹個專用引擎”的循環裡。

梁文鋒成了第壹個吃螃蟹的人。

DeepSeek也從壹個模型品牌,變成海外開發者手裡的基礎設施材料。

對於現階段的DeepSeek來說,這種“升維”非常重要。

焉知非福

講完了利好,必須講另壹面。

目前來看,DeepSeek的核心商業化路徑是API。開發者調用,按token付費,薄利多銷。

這是DeepSeek最擅長的打法。

但ds4這種項目,本質上是在“勸退”壹部分API用戶。

你可以這麼來理解,壹個獨立開發者或者小團隊,過去用Claude Code或者DeepSeek的API跑coding agent。coding agent是高token消耗場景,長上下文、多輪對話、頻繁工具調用、反復重試。

按token計費的話,壹個重度agent的開發者每個月可能要花幾千塊錢的token費用。

然而現在他面前出現了另壹個選項。

花幾萬塊錢買壹台128GB的MacBook Pro,然後跑ds4。

前期投入壹次,之後推理沒有邊際成本,數據不出本地,延遲完全可控。

外網論壇上有個開發者分享了他的方法:日常寫代碼、改bug這些簡單任務,全扔給本地的ds4跑,不花錢。只有遇到復雜的架構設計問題,才切換到雲端的DeepSeek V4-Pro或者Claude Opus。

高token消耗的部分被本地化了,只有少量高價值調用還留在雲端。

相當於壹分錢沒有給到DeepSeek,卻在絕大多數時間都在使用DeepSeek。

同時,antirez采用的量化方法也是有“坑”的。

即使是不對稱量化策略,只壓MoE專家不壓關鍵路徑,也不可能完全沒有質量損失。

外網論壇上已經有人發出了測試結果,ds4本地量化版本在超2000行代碼的文件裡偶爾丟失變量作用域,幻覺略多,MoE路由層對量化噪聲尤其敏感。

這就引出了另壹個更麻煩的問題,叫做體驗解釋權。

就像DeepSeek服務器崩了,我不知道是為什麼崩的,我只會覺得是DeepSeek不行。

用戶調用DeepSeek官方API,如果效果不好,他大概率會認為是DeepSeek自己的問題。但用戶在本地跑ds4時,面對的是2-bit量化、Metal runtime、SSD KV cache、上下文截斷、agent配置等壹整套變量。

這裡面任何壹個環節出問題,最後往往被歸因到“DeepSeek不行”。

別人幫你擴散模型,但他並不會幫你去維護口碑,主要是人家也沒這義務。

更深壹層看,“成為材料”和“成為平台”是完全不同的兩件事,梁文鋒更想要的是後者,可是ds4卻讓DeepSeek成為了前者。

材料只會被嵌入別人的工具鏈,不能為DeepSeek提供商業閉環,只有平台才掌握分發、計費、賬戶、數據、開發者關系和升級節奏。

DeepSeek如果只是提供權重,被antirez、Cursor、各種本地agent和第叁方runtime拿去改造,它當然獲得了名聲。不過真正能留住用戶的人,可能是那些工具鏈的開發者。

這就是開源模型的悖論。

模型越成功,越容易成為別人的底層能力;但底層能力如果沒有抓住開發者的入口,就有可能被上層產品吃掉大部分商業價值。

所以ds4對DeepSeek不是簡單的好消息,也不是壞消息。

可以肯定的是,對於DeepSeek來說,他們又有故事可以講給投資人聽了。

[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  •  延伸閱讀
    消息稱DeepSeek擬融資500億元,梁文鋒或參與出資 沖刺$500億估值!中國國家基金擬投資DeepSeek
    DeepSeek V4 引爆需求:華為升騰950芯片遭瘋搶 DeepSeek V4 與中共 AI 神話的崩解
    DeepSeek發表新AI模型 路透:市場反應冷淡 DeepSeek價格暴降90%!百萬token僅2分錢
    偷用英偉達AI芯片? DeepSeek新模型V4曝光 DeepSeek V4炸場背後:有人在內斗,有人在接力
    美國務院就DeepSeek等涉竊AI知識產權通告全球 價格屠夫DeepSeek新模型 定價僅OpenAI產品1%
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站