[谷歌] 2026"端側AI戰事"升級,蘋果谷歌們在拼什麼?

圖片由AI工具生成
2026上半年,端側大模型走到了壹個新階段:模型將繼續變小、變輕,但光靠壓縮已經不夠了。接下來的關鍵,是讓模型和底層框架、芯片、具體設備場景配合起來,從“能跑起來”走向“更好用”。
這樣的轉變,正在頭部廠商身上集中發生。6月9日的蘋果全球開發者大會(WWDC2026)上,蘋果發力端側大模型,發布了AFM3系列。
蘋果的思路是,從根本上為端側設計出省算力的結構,推出約200億參數的端側主力AFM 3 Core Advanced,把模型本體做大,通過稀疏架構,每次推理只激活其中壹部分參數。
這是蘋果的解法。不過從整個行業看,在端側的落地路徑上,仍然面臨不同取舍和分化。
壹些公司走“蒸餾路線”:讓能力強的大模型遷移給體量更小的模型,再把這個小模型裝進設備裡跑,以更低的成本逼近先進大模型的效果。
Google的Gemini Nano就是典型代表。早期Gemini技術報告中提到,Gemini Nano由更大的Gemini模型蒸餾而來,面向端側部署,直接跑在Pixel、叁星Galaxy等安卓手機本地上。
還有壹類廠商則選擇從端側約束出發,重新設計模型本身。在有限的算力、內存和功耗條件下,盡可能提高端側模型單位參數能夠承載的能力密度。
這條路線押中是端側大模型的“小而強”:模型體積要足夠小,才能進入更多手機、PC、車機、機器人等終端;能力又要足夠完整,才能支撐端側 Agent、實時交互和本地智能體驗。
以國內聚焦端側大模型的面壁智能為例,長期強調模型壓縮和能力密度提升。從MiniCPM系列開始,其思路就是用更小的參數規模,盡量承載更強的模型能力。
到目前,面壁智能選擇沿著低比特路線繼續壓縮模型,並聯合清華大學、OpenBMB開源社區發布的BitCPM-CANN,已經在華為昇騰平台上驗證了1.58-bit叁值大模型的訓練方案。
以前每個參數要用壹長串數字來記,現在改成只用很少幾位就能表示,這樣模型可以更省算力、也更省存儲。
和以往不同的是,這壹步的壓縮,使得端側大模型的升級不再只停留在模型算法層面,也開始進入芯片適配層面。
在近日和面壁智能的壹次交流會上,面壁智能CEO李大海表示:“今年以來,隨著行業整體把推演轉移到國產芯片上,我們也在逐步把訓練工作轉移到國產芯片和國產集群”。
這也指向端側大模型的壹個共同趨勢:模型越往終端走,就越依賴軟硬協同。單純把模型做小還不夠,模型需要貼合芯片的計算方式,芯片也需要圍繞大模型推理繼續優化。
行業中,類似的動作已經越來越多。無論是蘋果圍繞 Apple Silicon芯片推出Core AI,還是高通、聯發科、英特爾等廠商,都在搭建自己的端側AI平台。
端側AI的競爭,正在從比拼參數規模和壓縮比例,轉向模型、芯片、系統、應用之間的整體配合。
不過,端側大模型的共識正在形成,分歧也隨之浮現。
當模型真正進入手機、汽車、PC、機器人等真實設備後,行業討論的焦點開始更加聚焦在端側能力的核心能力拓展和邊界上:端側模型應該承擔哪些核心任務?本地智能與雲端智能如何分工?端側模型從“能跑”走向“好用”,還要跨過哪些門檻?
圍繞這些問題,面壁智能CEO李大海分享了他對端側大模型進入落地階段後的判斷與思考。
01 蘋果加碼端側:壹場遲到的“系統工程”
問:蘋果2026年繼續加碼端側大模型,推出的端側大模型AFM3 Core Advanced,也讓端側 AI 再次成為行業焦點。你怎麼看蘋果這壹路線的落地進展?如何看待蘋果通過“稀疏路線”切入端側的方式?對安卓手機廠商來說,會帶來怎樣的競爭壓力?
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦:



