不是什么都叫"世界模型",李飞飞给出新定义

2026-06-05 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

渲染器主要负责生成视觉画面，最主要的考核标准是逼真度

能将文本提示转化为电影级航拍镜头的视频生成模型属于这一类，谷歌的Genie 3、World Labs自研的RTFM等交互式生成系统也在此列。这类模型对三维结构没有显式理解，它们生成的是观众“会看到什么”，而不是“现实本身是什么”。

李飞飞在文中举了一个例子：航拍镜头中的建筑从上方看可能完美无缺，但如果试图驱车穿过下方的城市，画面就会分崩离析。原因很简单，渲染器的契约纯粹是视觉上的，它并不对画面背后的物理结构承担任何责任。

渲染器是当前商业落地最成熟的一类世界模型。谷歌的Nano Banana已经将渲染级别的图像生成能力交付到数亿用户手中。

但它的天花板同样清晰——渲染器优化的是视觉合理性，而非物理准确性。它的输出令人赞叹，但不能被信赖去设计建筑或训练机器人。李飞飞对此总结道：渲染器的输出固然美丽，但你无法信任它们去承担那些与现实世界紧密结合的任务。

第二类世界模型是模拟器。它输出的不是像素，而是状态，是一种在几何、物理和动力学层面高度保真的世界表征。

模拟器的职责是构建符合物理规则的三维结构

模拟器的契约是结构性的：几何必须经得起审视，物理必须尊重客观规律，动力学表现必须符合现实约束。

它同时服务于两类受众：一类是人类专业人士，包括建筑师、设计师、电影制作人和游戏开发者；另一类是计算机程序，包括强化学习智能体、机器人控制器和自动驾驶汽车，它们将模拟器作为训练场，测试那些在现实中过于危险或昂贵的场景。

李飞飞在文中有这样一段论述：如果说语言是对世界的一种抽象描述，像素是对世界的一种视觉投影，那么几何、物理和动力学才是世界的本来面目。模拟器必须建立在这个层面之上。

她举例说，模拟器生成的几何结构和物理规则就像一副骨骼——渲染器所需要的视觉外观、规划器所依赖的行动后果，都是从这副骨骼上生长出来的。

这意味着，一个精通模拟的模型，可以将其理解转化为供人观看的像素，也可以转化为供具身智能体使用的行动预测。而一个仅仅精通渲染或仅仅精通规划的模型，则做不到这一点。这是模拟器与其他两类在能力上的本质差异。

第三类世界模型是规划器，输出是行动。给定一个观测值和一个目标，规划器需要回答的核心问题是：智能体下一步应该做什么。

规划器的职责是给智能体下达行动指令

[物价飞涨的时候这样省钱购物很爽] 这条新闻还没有人评论喔，等着您的高见呢

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

不是什么都叫"世界模型",李飞飞给出新定义

意见