DeepSeek之后,又一中国大模型登Nature

Emu3的性能与最先进的扩散模型相当


如下图所示,在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,其可以与融合CLIP和大语言模型的主流方案比肩。



Emu3在文生图和视觉语言理解上比肩主流方案

在视觉语言理解方面,如下图所示,Emu3作为一种纯粹的无编码器方法,在多个基准测试中达到了与其同类方法相当的性能。取得这样的视觉-语言理解能力,Emu3并未依赖专门的预训练大语言模型和CLIP。



Emu3在视觉-语言理解能力方面的测评成绩

在零样本图像修复案例中,给定输入图像(每行左侧)和相应提示,Emu3能准确填充边界框内的掩码区域,生成语义对齐的内容,且无需特定任务的微调。




Emu3零样本图像修复

同时,Emu3还具备视频生成能力。Emu3原生支持生成24帧/秒的5秒视频,并可通过自回归方法进行扩展。如图所示,在扩展数据表3中,Emu3所产生的结果与其他视频扩散模型相比具有很强的竞争力:Emu3的性能超过Open Sora V1.2、Kling(2024)、Gen-3等当年的知名专用模型。



[加西网正招聘多名全职sales 待遇优]
还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    Nvidia被指协助DeepSeek改进AI模型 揭DeepSeek高效内幕 辉达亲授"神速训练"秘诀
    路透揭DeepSeek高效内幕:最终沦解放军利器 DeepSeek"震撼弹"一年后 中国谋求在AI赛道超美国
    DeepSeek弯道超车!微软总裁示警:中国侵吞市场 扩大黑名单 美议员点名DeepSeek小米
    美议员呼吁将DeepSeek、小米等列入"涉军企业"清单 DeepSeek预测:5年后,300万的房子还值多少钱
    比DeepSeek贵了400倍,GPT-5.2想钱想疯了? DeepSeek上新,"奥数金牌水平"....
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站