不是什么都叫"世界模型",李飞飞给出新定义

斯坦福大学AI科学家、World Labs创始人李飞飞。图片经由AI处理
文丨谢瑞瑞
编辑丨徐青阳
“世界模型”是过去两年AI领域最常被提及的概念之一,但它的含义正在变得越来越模糊。
视频生成模型、语言模型,甚至连物理引擎都能自称是世界模型。
斯坦福大学AI科学家、World Labs创始人李飞飞于6月4日撰文,专门回应这种混乱。她开篇便给出判断:世界模型是当今AI领域最重要、也最被滥用的术语之一。
她在文中写道,连古希腊人都没给“世界”下过一个统一、公认的定义。“世界”从来不是一个具体的事物,今天,AI也继承了同样的问题——世界模型的边界在哪里?
李飞飞的解决思路很明确:先分清世界模型的三个核心功能——渲染、模拟、规划。
01 理解世界模型的钥匙,是一张旧图
在展开论述之前,李飞飞先回顾了一张在强化学习领域使用了几十年的框架图:部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)。这个框架的名称很复杂,但逻辑却简明。

李飞飞将目前的世界模型系统分为三类,分别是渲染器、模拟器以及规划器
它描述的是一个循环:智能体采取行动,行动改变世界的状态,智能体从环境中获得观测值,再依据观测采取下一步行动。循环持续进行。
文中的“状态”,指的是物理学和机器人学中的概念:在某个时刻对世界状况的完整描述,涵盖每一个物体、每一个位置、每一组速度和每一项属性,对身处其中的任何智能体而言,永远无法被完全直接感知。我们能得到的,只是对现实的部分观测。
李飞飞进一步指出,这个由“智能体—行动—状态—观测—回到智能体”构成的闭环,赋予了现代世界模型真正的技术内核。
“世界模型”概念,最早可以追溯到1943年,由心理学家肯尼斯·克雷克(Kenneth Craik)在1943年提出,即大脑通过运行现实的“小规模模型”来进行推理。到了20世纪80年代末、90年代初,这个概念被引入神经网络研究。而今天,所有被称为世界模型的事物,本质上都是同一个循环在不同方向上的投影,每一类只输出循环中的一个片段。
02 三类世界模型:渲染器、模拟器与规划器
李飞飞认为,当前所有自称世界模型的系统可分为三类:渲染器、模拟器和规划器。
第一类世界模型是渲染器。它的输出是供人眼观看的像素,核心评估指标是视觉逼真度。

[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
不是什么都叫"世界模型",李飞飞给出新定义