DeepSeek之后,又一中国大模型登Nature

2026-02-01 | 来源: 智东西 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

Emu3的性能与最先进的扩散模型相当

如下图所示，在文生图任务中，其效果达到扩散模型水平；在视觉语言理解方面，其可以与融合CLIP和大语言模型的主流方案比肩。

Emu3在文生图和视觉语言理解上比肩主流方案

在视觉语言理解方面，如下图所示，Emu3作为一种纯粹的无编码器方法，在多个基准测试中达到了与其同类方法相当的性能。取得这样的视觉-语言理解能力，Emu3并未依赖专门的预训练大语言模型和CLIP。

Emu3在视觉-语言理解能力方面的测评成绩

在零样本图像修复案例中，给定输入图像（每行左侧）和相应提示，Emu3能准确填充边界框内的掩码区域，生成语义对齐的内容，且无需特定任务的微调。

Emu3零样本图像修复

同时，Emu3还具备视频生成能力。Emu3原生支持生成24帧/秒的5秒视频，并可通过自回归方法进行扩展。如图所示，在扩展数据表3中，Emu3所产生的结果与其他视频扩散模型相比具有很强的竞争力：Emu3的性能超过Open Sora V1.2、Kling（2024）、Gen-3等当年的知名专用模型。

[加西网正招聘多名全职sales 待遇优] 还没人说话啊，我想来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

延伸阅读

Nvidia被指协助DeepSeek改进AI模型	揭DeepSeek高效内幕辉达亲授"神速训练"秘诀
路透揭DeepSeek高效内幕:最终沦解放军利器	DeepSeek"震撼弹"一年后中国谋求在AI赛道超美国
DeepSeek弯道超车!微软总裁示警:中国侵吞市场	扩大黑名单美议员点名DeepSeek小米
美议员呼吁将DeepSeek、小米等列入"涉军企业"清单	DeepSeek预测:5年后,300万的房子还值多少钱
比DeepSeek贵了400倍,GPT-5.2想钱想疯了?	DeepSeek上新,"奥数金牌水平"....

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

DeepSeek之后,又一中国大模型登Nature

意见