不是什么都叫"世界模型",李飞飞给出新定义

渲染、模拟和规划三种能力的边界正在消失,最终指向一个统一的世界模型:既能生成画面,又能进行物理计算,还能自主决策


李飞飞用一个杯子的例子来说明这个观点。一个模型如果真正理解杯子如何放在桌面上,就能同时做到三件事:从任意角度渲染这个杯子,模拟它被推倒的过程,并规划一只手去将它捡起。

而这三类能力,是同一种底层理解的三个不同投影,也是一个完整的理解在不同场景下的不同输出。

实际进展已经出现。李飞飞在文中提到了来自不同机器人实验室的研究,研究表明,预训练的视频渲染器可以作为联合世界预测与行动预测的骨干网络,意味着同一个模型既能“想象”接下来发生什么,又能“决定”接下来做什么,从而在渲染器与规划器之间架起了一座桥梁。

她进一步指出,每一层都在从被动输出走向交互系统。渲染器正在变得可由行动调节,不再是单向的“输入文字、输出画面”,而是可以根据用户的交互实时调整生成内容。模拟器生成的世界正在变得更可控和可编辑,用户不再只是被动地观看模拟场景,还可以介入和修改。规划器则从单纯的“做出反应”走向“深思熟虑”,能够进行更长链条的推演和规划。

这些趋势的逻辑终点是一个统一的世界模型:一个既能渲染照片级真实视图、又能产生物理精确结构、还能规划行动序列的通用大模型,并可根据下游用户的需求自由切换输出模态。届时,“渲染器”“模拟器”“规划器”这些分类标签本身将变得不再重要,因为它们只是同一个模型的不同用法。

当然,这个目标还远未实现。数据图谱仍然严重失衡,过度追求视觉美感,可能牺牲掉机器人或高保真模拟所需的物理精准度。如何在单一架构中调和这些冲突,是当今世界模型研究最核心的开放问题。

结语:空间智能的漫长弧线

文章结尾,李飞飞回到了一个从上世纪末延续至今的判断:


也是整个AI领域一直在押注同一个判断:一个足够丰富的世界模型,就是一个智能体去观察世界、建造世界并置身其中采取行动所需要的一切。

而今天,这个判断已经出现融合的趋势。

渲染、模拟、规划,三条原本各自独立的研究路线呈现出另外一面。随着三者边界的彻底坍缩,它们将共同重塑一个更宏大的命题:机器智能与它所栖息的物理世界之间的关系。

“语言赋予了机器谈论这个世界的能力,”李飞飞在文末写道,“而世界模型,将是机器最终用来理解、想象、推理并与这个世界进行交互的方式。”

[物价飞涨的时候 这样省钱购物很爽]
还没人说话啊,我想来说几句
上一页1234下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    王小玮的戛纳与王小海的夜市 婚姻从不是终点 伊朗副外长:伊海外资产不是华盛顿的战利品
    黄金年代?黄昏时刻?复旦学者称川普抑制世界两极化 老司机:股价高不是恐惧的理由 但这个指标...
    喜剧让他破圈出名,但这不能定义他 60岁拿下世界大奖 她战胜了疾病 更战胜了自己
    河南中专生成北大博士:这不是逆袭 只是回到正常 美股一夜蒸发万亿 "区区"17万非农凭什么
    肺癌早期不是咳嗽,而是频繁出现这3症状 黄仁勋下一步不是芯片?"这些飙股"泄新野心
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站