DeepSeek之后,又一中国大模型登Nature

2026-02-01 | 来源: 智东西 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

智源研究院院长王仲远

到2025年10月，“悟界·Emu”系列已迭代出多模态世界模型。Emu3.5可以理解长时序、空间一致的序列，模拟在虚拟世界中的探索和操作，不仅超越谷歌Nano Banana等模型拿下多模态SOTA，并首次指明了“多模态Scaling 范式”，让模型自发学习世界演变的内在规律，为具身智能等物理AI领域发展提供了重要新路径。

Emu3.5延续了多模态数据统一建模的核心思想

Emu3为什么能够登上Nature正刊，得到国际学术界的高度认可？背后诞生了什么样的AI原创技术，并经历了什么样的挑战？这又将对学界和产业界的发展产生什么样的实际影响？本文试图对这些问题进行深入探讨。

论文名：

《通过预测下一个token进行多模态学习的多模态大模型（Multimodal learning with next-token prediction for large multimodal models）》

Emu3论文部分截图

一、50人小组死磕“统一”：一场押注AI未来的技术豪赌

Emu3模型最早立项是在2024年2月，当时正值团队重新审视大模型发展路径——随着GPT-4、Sora的爆火，“预测下一个token”自回归路线彻底改变了语言模型领域，并引发了关于AGI早期迹象的讨论，而在多模态生成领域，DiT（Difussion Transformer）架构成为主流，开始展现出令人惊艳的生成效果。

自回归技术路线是否可以作为通用路线统一多模态？一直是未解之谜。

Emu3的开创性，就在于仅采用“预测下一个token（NTP）”自回归路线，就实现统一多模态学习，训练出性能出色的原生多模态大模型。

[加西网正招聘多名全职sales 待遇优] 无评论不新闻，发表一下您的意见吧

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

DeepSeek之后,又一中国大模型登Nature

意见