[谷歌] 2026"端侧AI战事"升级,苹果谷歌们在拼什么?

图片由AI工具生成
2026上半年,端侧大模型走到了一个新阶段:模型将继续变小、变轻,但光靠压缩已经不够了。接下来的关键,是让模型和底层框架、芯片、具体设备场景配合起来,从“能跑起来”走向“更好用”。
这样的转变,正在头部厂商身上集中发生。6月9日的苹果全球开发者大会(WWDC2026)上,苹果发力端侧大模型,发布了AFM3系列。
苹果的思路是,从根本上为端侧设计出省算力的结构,推出约200亿参数的端侧主力AFM 3 Core Advanced,把模型本体做大,通过稀疏架构,每次推理只激活其中一部分参数。
这是苹果的解法。不过从整个行业看,在端侧的落地路径上,仍然面临不同取舍和分化。
一些公司走“蒸馏路线”:让能力强的大模型迁移给体量更小的模型,再把这个小模型装进设备里跑,以更低的成本逼近先进大模型的效果。
Google的Gemini Nano就是典型代表。早期Gemini技术报告中提到,Gemini Nano由更大的Gemini模型蒸馏而来,面向端侧部署,直接跑在Pixel、三星Galaxy等安卓手机本地上。
还有一类厂商则选择从端侧约束出发,重新设计模型本身。在有限的算力、内存和功耗条件下,尽可能提高端侧模型单位参数能够承载的能力密度。
这条路线押中是端侧大模型的“小而强”:模型体积要足够小,才能进入更多手机、PC、车机、机器人等终端;能力又要足够完整,才能支撑端侧 Agent、实时交互和本地智能体验。
以国内聚焦端侧大模型的面壁智能为例,长期强调模型压缩和能力密度提升。从MiniCPM系列开始,其思路就是用更小的参数规模,尽量承载更强的模型能力。
到目前,面壁智能选择沿着低比特路线继续压缩模型,并联合清华大学、OpenBMB开源社区发布的BitCPM-CANN,已经在华为昇腾平台上验证了1.58-bit三值大模型的训练方案。
以前每个参数要用一长串数字来记,现在改成只用很少几位就能表示,这样模型可以更省算力、也更省存储。
和以往不同的是,这一步的压缩,使得端侧大模型的升级不再只停留在模型算法层面,也开始进入芯片适配层面。
在近日和面壁智能的一次交流会上,面壁智能CEO李大海表示:“今年以来,随着行业整体把推演转移到国产芯片上,我们也在逐步把训练工作转移到国产芯片和国产集群”。
这也指向端侧大模型的一个共同趋势:模型越往终端走,就越依赖软硬协同。单纯把模型做小还不够,模型需要贴合芯片的计算方式,芯片也需要围绕大模型推理继续优化。
行业中,类似的动作已经越来越多。无论是苹果围绕 Apple Silicon芯片推出Core AI,还是高通、联发科、英特尔等厂商,都在搭建自己的端侧AI平台。
端侧AI的竞争,正在从比拼参数规模和压缩比例,转向模型、芯片、系统、应用之间的整体配合。
不过,端侧大模型的共识正在形成,分歧也随之浮现。
当模型真正进入手机、汽车、PC、机器人等真实设备后,行业讨论的焦点开始更加聚焦在端侧能力的核心能力拓展和边界上:端侧模型应该承担哪些核心任务?本地智能与云端智能如何分工?端侧模型从“能跑”走向“好用”,还要跨过哪些门槛?
围绕这些问题,面壁智能CEO李大海分享了他对端侧大模型进入落地阶段后的判断与思考。
01 苹果加码端侧:一场迟到的“系统工程”
问:苹果2026年继续加码端侧大模型,推出的端侧大模型AFM3 Core Advanced,也让端侧 AI 再次成为行业焦点。你怎么看苹果这一路线的落地进展?如何看待苹果通过“稀疏路线”切入端侧的方式?对安卓手机厂商来说,会带来怎样的竞争压力?
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐:



