不是什么都叫"世界模型",李飞飞给出新定义
渲染器主要负责生成视觉画面,最主要的考核标准是逼真度
能将文本提示转化为电影级航拍镜头的视频生成模型属于这一类,谷歌的Genie 3、World Labs自研的RTFM等交互式生成系统也在此列。这类模型对三维结构没有显式理解,它们生成的是观众“会看到什么”,而不是“现实本身是什么”。
李飞飞在文中举了一个例子:航拍镜头中的建筑从上方看可能完美无缺,但如果试图驱车穿过下方的城市,画面就会分崩离析。原因很简单,渲染器的契约纯粹是视觉上的,它并不对画面背后的物理结构承担任何责任。
渲染器是当前商业落地最成熟的一类世界模型。谷歌的Nano Banana已经将渲染级别的图像生成能力交付到数亿用户手中。
但它的天花板同样清晰——渲染器优化的是视觉合理性,而非物理准确性。它的输出令人赞叹,但不能被信赖去设计建筑或训练机器人。李飞飞对此总结道:渲染器的输出固然美丽,但你无法信任它们去承担那些与现实世界紧密结合的任务。
第二类世界模型是模拟器。它输出的不是像素,而是状态,是一种在几何、物理和动力学层面高度保真的世界表征。

模拟器的职责是构建符合物理规则的三维结构
模拟器的契约是结构性的:几何必须经得起审视,物理必须尊重客观规律,动力学表现必须符合现实约束。
它同时服务于两类受众:一类是人类专业人士,包括建筑师、设计师、电影制作人和游戏开发者;另一类是计算机程序,包括强化学习智能体、机器人控制器和自动驾驶汽车,它们将模拟器作为训练场,测试那些在现实中过于危险或昂贵的场景。
李飞飞在文中有这样一段论述:如果说语言是对世界的一种抽象描述,像素是对世界的一种视觉投影,那么几何、物理和动力学才是世界的本来面目。模拟器必须建立在这个层面之上。
她举例说,模拟器生成的几何结构和物理规则就像一副骨骼——渲染器所需要的视觉外观、规划器所依赖的行动后果,都是从这副骨骼上生长出来的。
这意味着,一个精通模拟的模型,可以将其理解转化为供人观看的像素,也可以转化为供具身智能体使用的行动预测。而一个仅仅精通渲染或仅仅精通规划的模型,则做不到这一点。这是模拟器与其他两类在能力上的本质差异。
第三类世界模型是规划器,输出是行动。给定一个观测值和一个目标,规划器需要回答的核心问题是:智能体下一步应该做什么。

规划器的职责是给智能体下达行动指令
[物价飞涨的时候 这样省钱购物很爽]
这条新闻还没有人评论喔,等着您的高见呢
能将文本提示转化为电影级航拍镜头的视频生成模型属于这一类,谷歌的Genie 3、World Labs自研的RTFM等交互式生成系统也在此列。这类模型对三维结构没有显式理解,它们生成的是观众“会看到什么”,而不是“现实本身是什么”。
李飞飞在文中举了一个例子:航拍镜头中的建筑从上方看可能完美无缺,但如果试图驱车穿过下方的城市,画面就会分崩离析。原因很简单,渲染器的契约纯粹是视觉上的,它并不对画面背后的物理结构承担任何责任。
渲染器是当前商业落地最成熟的一类世界模型。谷歌的Nano Banana已经将渲染级别的图像生成能力交付到数亿用户手中。
但它的天花板同样清晰——渲染器优化的是视觉合理性,而非物理准确性。它的输出令人赞叹,但不能被信赖去设计建筑或训练机器人。李飞飞对此总结道:渲染器的输出固然美丽,但你无法信任它们去承担那些与现实世界紧密结合的任务。
第二类世界模型是模拟器。它输出的不是像素,而是状态,是一种在几何、物理和动力学层面高度保真的世界表征。

模拟器的职责是构建符合物理规则的三维结构
模拟器的契约是结构性的:几何必须经得起审视,物理必须尊重客观规律,动力学表现必须符合现实约束。
它同时服务于两类受众:一类是人类专业人士,包括建筑师、设计师、电影制作人和游戏开发者;另一类是计算机程序,包括强化学习智能体、机器人控制器和自动驾驶汽车,它们将模拟器作为训练场,测试那些在现实中过于危险或昂贵的场景。
李飞飞在文中有这样一段论述:如果说语言是对世界的一种抽象描述,像素是对世界的一种视觉投影,那么几何、物理和动力学才是世界的本来面目。模拟器必须建立在这个层面之上。
她举例说,模拟器生成的几何结构和物理规则就像一副骨骼——渲染器所需要的视觉外观、规划器所依赖的行动后果,都是从这副骨骼上生长出来的。
这意味着,一个精通模拟的模型,可以将其理解转化为供人观看的像素,也可以转化为供具身智能体使用的行动预测。而一个仅仅精通渲染或仅仅精通规划的模型,则做不到这一点。这是模拟器与其他两类在能力上的本质差异。
第三类世界模型是规划器,输出是行动。给定一个观测值和一个目标,规划器需要回答的核心问题是:智能体下一步应该做什么。

规划器的职责是给智能体下达行动指令
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
不是什么都叫"世界模型",李飞飞给出新定义