DeepSeek之后,又一中国大模型登Nature

智源研究院院长王仲远
到2025年10月,“悟界·Emu”系列已迭代出多模态世界模型。Emu3.5可以理解长时序、空间一致的序列,模拟在虚拟世界中的探索和操作,不仅超越谷歌Nano Banana等模型拿下多模态SOTA,并首次指明了“多模态Scaling 范式”,让模型自发学习世界演变的内在规律,为具身智能等物理AI领域发展提供了重要新路径。

Emu3.5延续了多模态数据统一建模的核心思想
Emu3为什么能够登上Nature正刊,得到国际学术界的高度认可?背后诞生了什么样的AI原创技术,并经历了什么样的挑战?这又将对学界和产业界的发展产生什么样的实际影响?本文试图对这些问题进行深入探讨。
论文名:
《通过预测下一个token进行多模态学习的多模态大模型(Multimodal learning with next-token prediction for large multimodal models)》

Emu3论文部分截图
一、50人小组死磕“统一”:一场押注AI未来的技术豪赌
Emu3模型最早立项是在2024年2月,当时正值团队重新审视大模型发展路径——随着GPT-4、Sora的爆火,“预测下一个token”自回归路线彻底改变了语言模型领域,并引发了关于AGI早期迹象的讨论,而在多模态生成领域,DiT(Difussion Transformer)架构成为主流,开始展现出令人惊艳的生成效果。
自回归技术路线是否可以作为通用路线统一多模态?一直是未解之谜。
Emu3的开创性,就在于仅采用“预测下一个token(NTP)”自回归路线,就实现统一多模态学习,训练出性能出色的原生多模态大模型。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
推荐:



