DeepSeek之后,又一中国大模型登Nature

2026-02-01 | 来源: 智东西 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

1、一个大型的混合多模态训练数据集。

2、一个统一的标记器，可将图像和视频片段转换为紧凑的离散标记流（视觉分词器）。

3、一个基于Transformer的仅解码器架构，该架构扩展了大型语言模型的嵌入空间以接受视觉标记，其他方面则遵循标准的仅解码器设计选择（架构）。

4、一个两阶段优化方案，包括采用平衡交叉熵损失的大规模多模态预训练，以及与任务格式和人类偏好对齐的高质量后训练（预训练和后训练）。

5、一个高效的推理后端，支持无分类器引导（CFG）、低延迟和高吞吐量，用于自回归多模态生成（推理）。

Emu3架构图

这一架构证明，仅凭“预测下一个token”，我们就能够同时支持高水平的生成能力与理解能力，并且在同一统一架构下，自然地扩展到机器人操作以及多模态交错等生成任务。智源研究团队对相关研究的多项关键技术与模型进行了开源，以推动该方向的持续研究。

同时，研究通过大规模消融实验系统分析了多项关键技术的设计选择，验证了多模态学习的规模定律（Scaling law）、统一离散化的高效性、以及解码器架构的有效性。研究还验证了自回归路线高度通用性：直接偏好优化（DPO）方法可无缝应用于自回归视觉生成任务，使模型能够更好地对齐人类偏好。

在此研究基础上，悟界·Emu3.5进一步通过大规模长时序视频训练，学习时空与因果关系，展现出随模型与数据规模增长而提升的物理世界建模能力，并观察到多模态能力随规模扩展而涌现的趋势，实现了“预测下一个状态”的范式升级。

四、坚持原始创新：北京智源引领大模型技术演进

自2018年创立之后，智源研究院通过多项成果深刻影响了中国AI学术和产业界。其在2021年发布了中国首个大语言模型“悟道1.0”，及当时全球最大的大语言模型（采用MoE架构）“悟道2.0”，同时因输送大量顶尖AI产业人才被称为“大模型的黄埔军校”。

智源2022年开辟的新的模型系列——悟界·Emu研究成果的发表，不仅是国际学术界对智源研究团队工作的认可，更是对中国AI原创技术路线的重要肯定。

Emu系列模型自2022年启动研发以来，围绕“原生多模态”这一核心技术主线持续迭代，每一个版本都在关键能力与方法论上实现了实质性突破。

2022年6月，系统布局多模态大模型的研发。

2023年7月，发布并开源首个版本，成为最早打通多模态输入到多模态输出的统一多模态模型，创新性提出统一多模态学习框架并大规模引入视频数据，初步实现多模态自回归预测。

2023年12月，发布Emu2，通过大规模自回归生成式多模态预训练，展现出可泛化的多模态上下文学习能力，可在少量示例和简单指令下完成听、说、读、写、画等任务，是当时开源最大的生成式多模态模型。

2024年10月，发布Emu3，该模型只基于预测下一个token，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

2025年10月，推出原生多模态世界模型Emu3.5，实现从 “预测下一个token” 到 “预测下一个状态” 的能力跃迁，从长视频数据中学习世界演化规律，提出多模态 Scaling 新范式。

自2020年启动“悟道”大模型研究以来，智源持续聚焦大模型的原始创新与长期技术路径探索。2025年6月，智源发布新一代大模型系列“悟界”，旨在构建人工智能从数字世界迈向物理世界的关键能力，及物理世界的人工智能基座模型。

[物价飞涨的时候这样省钱购物很爽] 好新闻没人评论怎么行，我来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

DeepSeek之后,又一中国大模型登Nature

意见