[騰訊] 騰訊推出0.4G離線翻譯模型 比谷歌翻譯得好
原始1.8B模型在FP16精度下會占用3.3GB內存,為了不占用手機內存,研究人員進行了量化壓縮。
其將模型裡原本用16位數字(16-bit)表示的參數轉用更低位數字儲存。這就像把壹幅高清照片壓縮成縮略圖,雖然文件小但還是能看清楚內容。
此外,針對不同的手機用戶,騰訊還推出了2-bit與1.25-bit兩種量化壓縮方案。其實測顯示,量化壓縮後的兩款模型表現效果遠超同體積或更大體積大模型的翻譯效果。

2-bit適用的中高端機型,模型體積壓縮至574MB。
根據官方介紹,2-bit模型采用拉伸彈性量化(SEQ),將模型參數量化至{-1.5,-0.5,0.5,1.5},並結合量化感知蒸餾,在將模型體積壓縮至574MB的同時,實現了幾乎無損翻譯質量,效果超越上百GB的大模型。在支持Arm SME2技術的移動設備上,2-bit模型能夠實現更快速、更高效的推理。
1.25-bit模型適用全系機型,模型體積為440MB。
這壹模型基於Sherry(稀疏高效叁值量化)技術,其核心邏輯在於“細粒度稀疏”策略:每4個模型參數,3個最重要的用1-bit儲存,1個用0儲存,平均每個參數僅需1.25-bit。

此外,其還搭載了騰訊為手機CPU設計的STQ內核,適配SIMD指令集。這使得該模型能長時間在後台停留。Sherry技術方案已經被NLP頂級學術會議ACL 2026錄用。

結語:騰訊混元拉低離線翻譯普及門檻AI翻譯已成為手機、輸入法、瀏覽器、會議、客服工具等各種工具的標配功能,但大多工具仍是聯網調用雲端API,離線能力弱、體驗差、隱私風險高。
騰訊混元此次開源輕量化翻譯模型,用幾百MB級的體積實現了媲美雲端大模型的翻譯質量,或直接把高端離線翻譯從雲端特權拉到手機可普及的門檻。
[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
其將模型裡原本用16位數字(16-bit)表示的參數轉用更低位數字儲存。這就像把壹幅高清照片壓縮成縮略圖,雖然文件小但還是能看清楚內容。
此外,針對不同的手機用戶,騰訊還推出了2-bit與1.25-bit兩種量化壓縮方案。其實測顯示,量化壓縮後的兩款模型表現效果遠超同體積或更大體積大模型的翻譯效果。

2-bit適用的中高端機型,模型體積壓縮至574MB。
根據官方介紹,2-bit模型采用拉伸彈性量化(SEQ),將模型參數量化至{-1.5,-0.5,0.5,1.5},並結合量化感知蒸餾,在將模型體積壓縮至574MB的同時,實現了幾乎無損翻譯質量,效果超越上百GB的大模型。在支持Arm SME2技術的移動設備上,2-bit模型能夠實現更快速、更高效的推理。
1.25-bit模型適用全系機型,模型體積為440MB。
這壹模型基於Sherry(稀疏高效叁值量化)技術,其核心邏輯在於“細粒度稀疏”策略:每4個模型參數,3個最重要的用1-bit儲存,1個用0儲存,平均每個參數僅需1.25-bit。

此外,其還搭載了騰訊為手機CPU設計的STQ內核,適配SIMD指令集。這使得該模型能長時間在後台停留。Sherry技術方案已經被NLP頂級學術會議ACL 2026錄用。

結語:騰訊混元拉低離線翻譯普及門檻AI翻譯已成為手機、輸入法、瀏覽器、會議、客服工具等各種工具的標配功能,但大多工具仍是聯網調用雲端API,離線能力弱、體驗差、隱私風險高。
騰訊混元此次開源輕量化翻譯模型,用幾百MB級的體積實現了媲美雲端大模型的翻譯質量,或直接把高端離線翻譯從雲端特權拉到手機可普及的門檻。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦: