Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_f9fee588fb247f26c69e481d92156fab, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
DeepSeek之后,又一中国大模型登Nature | 温哥华地产中心
   

DeepSeek之后,又一中国大模型登Nature




智源研究院院长王仲远

到2025年10月,“悟界·Emu”系列已迭代出多模态世界模型。Emu3.5可以理解长时序、空间一致的序列,模拟在虚拟世界中的探索和操作,不仅超越谷歌Nano Banana等模型拿下多模态SOTA,并首次指明了“多模态Scaling 范式”,让模型自发学习世界演变的内在规律,为具身智能等物理AI领域发展提供了重要新路径。



Emu3.5延续了多模态数据统一建模的核心思想

Emu3为什么能够登上Nature正刊,得到国际学术界的高度认可?背后诞生了什么样的AI原创技术,并经历了什么样的挑战?这又将对学界和产业界的发展产生什么样的实际影响?本文试图对这些问题进行深入探讨。

论文名:

《通过预测下一个token进行多模态学习的多模态大模型(Multimodal learning with next-token prediction for large multimodal models)》



Emu3论文部分截图


一、50人小组死磕“统一”:一场押注AI未来的技术豪赌

Emu3模型最早立项是在2024年2月,当时正值团队重新审视大模型发展路径——随着GPT-4、Sora的爆火,“预测下一个token”自回归路线彻底改变了语言模型领域,并引发了关于AGI早期迹象的讨论,而在多模态生成领域,DiT(Difussion Transformer)架构成为主流,开始展现出令人惊艳的生成效果。

自回归技术路线是否可以作为通用路线统一多模态?一直是未解之谜。

Emu3的开创性,就在于仅采用“预测下一个token(NTP)”自回归路线,就实现统一多模态学习,训练出性能出色的原生多模态大模型。

[加西网正招聘多名全职sales 待遇优]
无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站