DeepSeek之后,又一中国大模型登Nature

2026-02-01 | 来源: 智东西 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

Emu3与其他视频扩散模型对比情况

Emu3可以通过预测未来帧来扩展视频。以视频扩展的定性为例，将2秒、24帧/秒的视频token化为离散视觉token作为上下文。Emu3以同样的离散视觉token形式预测后续2秒的内容，这些token可以被解token化以生成预测的未来视频。

不同于Sora等模型的以噪声为起点的扩散式视频生成模型，Emu3通过自回归方式逐token预测视频序列，实现基于因果的视频生成与延展，展现出对物理世界中环境、人类与动物行为的初步模拟能力。

Emu3还可拓展至视觉语言交错生成，例如图文并茂的菜谱生成。

交错图文生成结果的可视化

其也可拓展至视觉语言动作建模，如机器人操作VLA等，进一步体现了“预测下一个token”的通用性。

Droid数据集上视觉预测的可视化

事实上，在Nature论文之外，智源研究院于2025年10月30日发布了Emu3的后续版本Emu3.5，其在多种多模态任务上继续展现出令人惊艳的效果以及SOTA的结果，对比Emu3有了全方位、大幅度的性能提升，开启多模态世界大模型新纪元。

“悟界·Emu”系列在架构理念和实际效果上都达到了产品级，这才使它不仅在学术界获得了《自然》期刊的高度认可，而且在业界引起了广泛关注。Emu3及后续版本的成果具有重大产业应用前景，可能改写整个多模态大模型格局，为中国在下一代大模型下的原创科研成果树立了典范。

三、扩散模型已死？技术角度揭秘Emu3框架

Emu3及后续版本的发布，一度在开发者社区引起讨论和关注，甚至产生了“扩散模型已死”的说法。

对此，王仲远坦言，目前对于扩散模型的研究趋势尚不能定论。虽然有一些成果如Emu3.5提供了世界模型的可行路径，但并非唯一路径。未来可能会有更多技术路径实现“预测下一个状态”，且扩散模型也在与其他技术结合改进。因此，不能断言扩散模型会消失，而是需要持续观察和学习交流。

尽管不能断言自回归路线已经一统天下，但Emu3已经为产业提供了一条新的康庄大道。

回到Emu3模型架构来看，其保留了Llama-2等成熟大语言模型的架构框架，主要修改在于扩展了嵌入层以容纳离散的视觉标记。这是一个统一的、仅含解码器的框架，该框架将语言、图像和视频建模为单一的离散标记序列，并通过下一个标记预测目标进行端到端训练。

下图展示了该框架，其方法包含五个紧密集成的组件：

[物价飞涨的时候这样省钱购物很爽] 这条新闻还没有人评论喔，等着您的高见呢

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

DeepSeek之后,又一中国大模型登Nature

意见