DeepSeek之后,又一中国大模型登Nature

Emu3与其他视频扩散模型对比情况


Emu3可以通过预测未来帧来扩展视频。以视频扩展的定性为例,将2秒、24帧/秒的视频token化为离散视觉token作为上下文。Emu3以同样的离散视觉token形式预测后续2秒的内容,这些token可以被解token化以生成预测的未来视频。

不同于Sora等模型的以噪声为起点的扩散式视频生成模型,Emu3通过自回归方式逐token预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。

Emu3还可拓展至视觉语言交错生成,例如图文并茂的菜谱生成。



交错图文生成结果的可视化

其也可拓展至视觉语言动作建模,如机器人操作VLA等,进一步体现了“预测下一个token”的通用性。



Droid数据集上视觉预测的可视化

事实上,在Nature论文之外,智源研究院于2025年10月30日发布了Emu3的后续版本Emu3.5,其在多种多模态任务上继续展现出令人惊艳的效果以及SOTA的结果,对比Emu3有了全方位、大幅度的性能提升,开启多模态世界大模型新纪元。

“悟界·Emu”系列在架构理念和实际效果上都达到了产品级,这才使它不仅在学术界获得了《自然》期刊的高度认可,而且在业界引起了广泛关注。Emu3及后续版本的成果具有重大产业应用前景,可能改写整个多模态大模型格局,为中国在下一代大模型下的原创科研成果树立了典范。

三、扩散模型已死?技术角度揭秘Emu3框架


Emu3及后续版本的发布,一度在开发者社区引起讨论和关注,甚至产生了“扩散模型已死”的说法。

对此,王仲远坦言,目前对于扩散模型的研究趋势尚不能定论。虽然有一些成果如Emu3.5提供了世界模型的可行路径,但并非唯一路径。未来可能会有更多技术路径实现“预测下一个状态”,且扩散模型也在与其他技术结合改进。因此,不能断言扩散模型会消失,而是需要持续观察和学习交流。

尽管不能断言自回归路线已经一统天下,但Emu3已经为产业提供了一条新的康庄大道。

回到Emu3模型架构来看,其保留了Llama-2等成熟大语言模型的架构框架,主要修改在于扩展了嵌入层以容纳离散的视觉标记。这是一个统一的、仅含解码器的框架,该框架将语言、图像和视频建模为单一的离散标记序列,并通过下一个标记预测目标进行端到端训练。

下图展示了该框架,其方法包含五个紧密集成的组件:

[物价飞涨的时候 这样省钱购物很爽]
这条新闻还没有人评论喔,等着您的高见呢
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    Nvidia被指协助DeepSeek改进AI模型 揭DeepSeek高效内幕 辉达亲授"神速训练"秘诀
    路透揭DeepSeek高效内幕:最终沦解放军利器 DeepSeek"震撼弹"一年后 中国谋求在AI赛道超美国
    DeepSeek弯道超车!微软总裁示警:中国侵吞市场 扩大黑名单 美议员点名DeepSeek小米
    美议员呼吁将DeepSeek、小米等列入"涉军企业"清单 DeepSeek预测:5年后,300万的房子还值多少钱
    比DeepSeek贵了400倍,GPT-5.2想钱想疯了? DeepSeek上新,"奥数金牌水平"....
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站