不是什么都叫"世界模型",李飞飞给出新定义

2026-06-05 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

渲染、模拟和规划三种能力的边界正在消失，最终指向一个统一的世界模型：既能生成画面，又能进行物理计算，还能自主决策

李飞飞用一个杯子的例子来说明这个观点。一个模型如果真正理解杯子如何放在桌面上，就能同时做到三件事：从任意角度渲染这个杯子，模拟它被推倒的过程，并规划一只手去将它捡起。

而这三类能力，是同一种底层理解的三个不同投影，也是一个完整的理解在不同场景下的不同输出。

实际进展已经出现。李飞飞在文中提到了来自不同机器人实验室的研究，研究表明，预训练的视频渲染器可以作为联合世界预测与行动预测的骨干网络，意味着同一个模型既能“想象”接下来发生什么，又能“决定”接下来做什么，从而在渲染器与规划器之间架起了一座桥梁。

她进一步指出，每一层都在从被动输出走向交互系统。渲染器正在变得可由行动调节，不再是单向的“输入文字、输出画面”，而是可以根据用户的交互实时调整生成内容。模拟器生成的世界正在变得更可控和可编辑，用户不再只是被动地观看模拟场景，还可以介入和修改。规划器则从单纯的“做出反应”走向“深思熟虑”，能够进行更长链条的推演和规划。

这些趋势的逻辑终点是一个统一的世界模型：一个既能渲染照片级真实视图、又能产生物理精确结构、还能规划行动序列的通用大模型，并可根据下游用户的需求自由切换输出模态。届时，“渲染器”“模拟器”“规划器”这些分类标签本身将变得不再重要，因为它们只是同一个模型的不同用法。

当然，这个目标还远未实现。数据图谱仍然严重失衡，过度追求视觉美感，可能牺牲掉机器人或高保真模拟所需的物理精准度。如何在单一架构中调和这些冲突，是当今世界模型研究最核心的开放问题。

结语：空间智能的漫长弧线

文章结尾，李飞飞回到了一个从上世纪末延续至今的判断：

也是整个AI领域一直在押注同一个判断：一个足够丰富的世界模型，就是一个智能体去观察世界、建造世界并置身其中采取行动所需要的一切。

而今天，这个判断已经出现融合的趋势。

渲染、模拟、规划，三条原本各自独立的研究路线呈现出另外一面。随着三者边界的彻底坍缩，它们将共同重塑一个更宏大的命题：机器智能与它所栖息的物理世界之间的关系。

“语言赋予了机器谈论这个世界的能力，”李飞飞在文末写道，“而世界模型，将是机器最终用来理解、想象、推理并与这个世界进行交互的方式。”

[物价飞涨的时候这样省钱购物很爽] 还没人说话啊，我想来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

不是什么都叫"世界模型",李飞飞给出新定义

意见