大模型推理最高提速85%!deepseek發表重磅論文

2026-06-28 | 來源: 財聯社 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

《科創板日報》6月28日訊（記者王耐）在6月中旬獲得500億融資後僅拾幾天，6月27日，DeepSeek團隊聯合北京大學發布論文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。

這不是壹次模型版本的迭代，而是在原有DeepSeek-V4-Pro和DeepSeek-V4-Flash基礎上增加了壹個推測解碼模塊，重點在於工程落地層面的優化。

隨DSpark壹同開源的DeepSpec，是壹個用於訓練和評估推測解碼草稿模型的全棧代碼庫，包含數據准備工具、草稿模型實現、訓練代碼和評估腳本，支持MIT許可。目前DeepSpec已內置DSpark、DFlash和Eagle3叁種實現。

值得注意的是，DeepSeek創始人梁文鋒位列論文作者名單。在完成首輪融資的當下，創始人依然親自參與技術論文撰寫，這在AI行業並不多見。

論文標題：《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

論文鏈接：https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

實測數據驗證：同等吞吐下，V4-Flash提速60%-85%，V4-Pro 提升 57%-78%

不同於僅停留在實驗室的算法優化，DSpark 已完成真實用戶流量落地驗證。該框架全面部署於 DeepSeek-V4-Flash、V4-Pro 線上服務，替代此前 MTP-1 生產基線。在同等系統總吞吐規模下，V4-Flash 單用戶生成速度提升 60%-85%，V4-Pro 提升 57%-78%。

除了DeepSeek自家的大模型，DSpark也已經部署到了阿裡旗下的Qwen3-4B、8B、14B，以及Gemma4-12B。叁大評測領域分別是：數學推理、代碼生成、日常對話。

DSpark兼容 Qwen、Gemma 等國內外主流基座，同時配套 DeepSpec 倉庫、模型權重全部開源。這意味著，對於缺乏底層算法團隊的中小企業、ToB 服務商，無需投入巨額研發即可復用成熟推理優化方案，大幅降低大模型私有化部署、線上服務的落地門檻，智能體、工業代碼、金融輿情等場景規模化落地速度有望加快。

論文數據顯示，DSpark 在全部目標模型、全部評測領域下，穩定超越自回歸基線 Eagle3 與並行基線 DFlash。以 Qwen3-4B/8B/14B 為例，宏平均接受長度相對 Eagle3 提升 30.9%、26.7%、30.0%；相對 DFlash 提升 16.3%、18.4%、18.3%。這壹優勢具備跨模型的泛化能力，在Gemma4-12B目標模型上同樣取得了壹致的性能增益。

除整體提升外，論文實驗數據還揭示了顯著的領域差異效應：：結構化任務（如數學推理、代碼生成）的可接受長度天然更高（例如Qwen3-4B在數學任務上平均為5.57，代碼任務為5.12），而開放式對話場景則明顯偏低（僅3.49）。

論文也指出當前方案存在局限：對於本身可預測性極低、接受率偏低的復雜查詢，這部分前置草稿算力無法回收。未來的優化方向可在草稿模型內部引入難度感知的早退出機制，使此類請求能夠跳過完整塊生成流程。

[物價飛漲的時候這樣省錢購物很爽] 還沒人說話啊，我想來說幾句

分享:

上壹頁12 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

大模型推理最高提速85%!deepseek發表重磅論文

意見