DeepSeek之后,又一中国大模型登Nature

2026-02-01 | 来源: 智东西 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

智东西2月1日报道，北京时间1月29日，北京智源人工智能研究院推出的多模态大模型“悟界·Emu”登上Nature正刊，成为继DeepSeek之后第二个达成此成就的中国大模型团队研究成果，也是中国首篇围绕多模态大模型路线的Nature论文。

Nature官网截图

Nature编辑点评道：“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义，有望推动原生多模态助手、世界模型以及具身智能等方向的发展。”

Emu3有望推动具身智能等方向发展

“悟界·Emu3”模型由智源研究院于2024年10月推出。无论在感知和还是生成方面，Emu3均达到了与特定任务旗舰模型相媲美的性能。该模型能够完成文本到图像生成、文本到视频生成、未来预测、视觉语言理解、交错图像文本生成以及具身操作等多方面任务，这一成果对于确立自回归成为生成式AI统一路线具有重大意义。

如下图所示，Emu3的图像生成在MSCOCO-30K23等基准上表现优于SDXL等扩散模型；视频生成在VBench评分达81，超过Open-Sora 1.2；视觉语言理解得分62.1，略高于LLaVA-1.6。尽管这一成绩在如今已经比较寻常，但在两年前却非同一般。

Emu3图像生成、视觉-语言理解和视频生成的主要测评结果

前OpenAI政策主管、现Anthropic联合创始人杰克·克拉克（Jack Clark）当时评价Emu3：“不依赖花哨的架构技巧，仅用最基础的预测下一个token的逻辑，这种‘简单’被视为具备强大的扩展潜力。”

而正是这种“简单”架构路线，对降低大模型研发门槛和成本意义重大。“越是极简的架构，可能越具备强大的生产力，对产业的价值也越大。”智源研究院院长王仲远告诉智东西，“因为它简化了多模态AI架构，减少了研发过程中的复杂性和潜在错误，从而使模型的构建和维护更高效。”

[物价飞涨的时候这样省钱购物很爽] 好新闻没人评论怎么行，我来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

DeepSeek之后,又一中国大模型登Nature

意见