DeepSeek之后,又一中国大模型登Nature

智东西2月1日报道,北京时间1月29日,北京智源人工智能研究院推出的多模态大模型“悟界·Emu”登上Nature正刊,成为继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇围绕多模态大模型路线的Nature论文。




Nature官网截图

Nature编辑点评道:“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。”



Emu3有望推动具身智能等方向发展

“悟界·Emu3”模型由智源研究院于2024年10月推出。无论在感知和还是生成方面,Emu3均达到了与特定任务旗舰模型相媲美的性能。该模型能够完成文本到图像生成、文本到视频生成、未来预测、视觉语言理解、交错图像文本生成以及具身操作等多方面任务,这一成果对于确立自回归成为生成式AI统一路线具有重大意义。

如下图所示,Emu3的图像生成在MSCOCO-30K23等基准上表现优于SDXL等扩散模型;视频生成在VBench评分达81,超过Open-Sora 1.2;视觉语言理解得分62.1,略高于LLaVA-1.6。尽管这一成绩在如今已经比较寻常,但在两年前却非同一般。




Emu3图像生成、视觉-语言理解和视频生成的主要测评结果

前OpenAI政策主管、现Anthropic联合创始人杰克·克拉克(Jack Clark)当时评价Emu3:“不依赖花哨的架构技巧,仅用最基础的预测下一个token的逻辑,这种‘简单’被视为具备强大的扩展潜力。”

而正是这种“简单”架构路线,对降低大模型研发门槛和成本意义重大。“越是极简的架构,可能越具备强大的生产力,对产业的价值也越大。”智源研究院院长王仲远告诉智东西,“因为它简化了多模态AI架构,减少了研发过程中的复杂性和潜在错误,从而使模型的构建和维护更高效。”

[物价飞涨的时候 这样省钱购物很爽]
好新闻没人评论怎么行,我来说几句
上一页1234...7下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    Nvidia被指协助DeepSeek改进AI模型 揭DeepSeek高效内幕 辉达亲授"神速训练"秘诀
    路透揭DeepSeek高效内幕:最终沦解放军利器 DeepSeek"震撼弹"一年后 中国谋求在AI赛道超美国
    DeepSeek弯道超车!微软总裁示警:中国侵吞市场 扩大黑名单 美议员点名DeepSeek小米
    美议员呼吁将DeepSeek、小米等列入"涉军企业"清单 DeepSeek预测:5年后,300万的房子还值多少钱
    比DeepSeek贵了400倍,GPT-5.2想钱想疯了? DeepSeek上新,"奥数金牌水平"....
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站