不是什么都叫"世界模型",李飞飞给出新定义

在许多方面,这恰好是渲染器的逆向过程。渲染器以行动为输入并产生观测值,规划器则以观测值为输入并产生行动,从而完成“感知—行动”的闭环。


视觉-语言-动作模型、基于模型的系统,以及新近兴起的世界动作模型,本质上都属于规划器的尝试。这些系统旨在让机器人在非结构化世界中自主决定下一步动作,直接输出一个可执行的决策。

这是最受关注的新兴方向,与机器人学习领域紧密相连。过去两年,各类机器人演示视频频频引发关注:机械臂灵活抓取物体,双足机器人在复杂地形上行走,机器人在桌面上完成精细操作等。

但李飞飞在文中指出,这些演示几乎全部局限在严格受控的实验室环境内,物体种类有限,任务周期很短。没有任何一个系统在真实世界部署所需的复杂性、多变性或持久性方面得到过验证。

尽管技术尚未成熟,商业层面的押注却已开始。一批资金雄厚的新玩家正竞相推出通用规划系统。另一边,大型基础设施巨头则已搭建起庞大的模拟平台,能处理从物理计算到环境生成的各种任务,现在正把规划能力作为新功能加进去。

03 模拟器被低估了

在渲染、模拟、规划这三个类别中,模拟器获得的大众关注最少,但它却是三者中影响最深远的一个。她的这篇文章,正是为了解决模拟器在关注度上的不对称。

商业层面的想象空间同样可观。李飞飞在文章中直接提及英伟达的Omniverse平台,它所瞄准的工厂、仓库、供应链和数字孪生领域,潜在市场规模超过一万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物研发等等,都依赖于模拟形态的技术能力。

但模拟器面临的挑战也最为严峻。

首先是数据问题:包含显式几何、材料属性和物理标注的三维数据,远比渲染器训练所依赖的互联网视频稀缺得多,相差以数量级计。互联网上有取之不尽的视频素材可以用来训练渲染器,但带有精确物理属性的3D资产却极其有限。

其次是长期存在的“模拟与现实差距”。无论模拟做得多么精细,虚拟环境中的测试结果迁移到真实世界时,总会产生偏差。这个问题在机器人学和自动驾驶领域已经被反复讨论,至今没有完全解决。

此外,生成式模拟器还引入了新的风险。AI生成的几何体看起来可能正确,但可能包含自相交或错误比例,一旦跑起物理模拟,就会产生荒谬的结果。

最后是计算成本的问题。在大规模多物理场景模拟中,刚体、可变形物体、流体和布料相互交织,其计算成本比单一领域的模拟高出太多。这意味着,即使有了足够的数据和模型,运行这些模拟本身也是一项昂贵的工程。


李飞飞创办的World Labs推出了Marble系统,这是朝“统一模拟”迈出的第一步。它接收文本、图像、视频或空间草图等输入,生成可交互的3D环境,同时输出两种结果:用于视觉呈现的高斯泼溅(Gaussian Splats),决定场景的视觉外观;用于物理计算的碰撞网格(Collision Meshes),决定物体的空间边界与碰撞响应。过去,视觉渲染和物理模拟是两套独立的系统,Marble把它们整合进了同一个模型。

Marble的出现让模拟器第一次同时兼顾视觉呈现与物理结构。但正如李飞飞所说,这只是一个开始。

04 三条界限,正在消失

李飞飞的另一项核心判断是:渲染、模拟、规划这三个类别,正在开始相互融合。

推动这种融合的是一个共识——渲染一个世界、模拟一个世界以及在那个世界中采取行动所需要的知识,在很大程度上是通用的。



[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    王小玮的戛纳与王小海的夜市 婚姻从不是终点 伊朗副外长:伊海外资产不是华盛顿的战利品
    黄金年代?黄昏时刻?复旦学者称川普抑制世界两极化 老司机:股价高不是恐惧的理由 但这个指标...
    喜剧让他破圈出名,但这不能定义他 60岁拿下世界大奖 她战胜了疾病 更战胜了自己
    河南中专生成北大博士:这不是逆袭 只是回到正常 美股一夜蒸发万亿 "区区"17万非农凭什么
    肺癌早期不是咳嗽,而是频繁出现这3症状 黄仁勋下一步不是芯片?"这些飙股"泄新野心
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站