不是什么都叫"世界模型",李飞飞给出新定义

渲染器主要负责生成视觉画面,最主要的考核标准是逼真度


能将文本提示转化为电影级航拍镜头的视频生成模型属于这一类,谷歌的Genie 3、World Labs自研的RTFM等交互式生成系统也在此列。这类模型对三维结构没有显式理解,它们生成的是观众“会看到什么”,而不是“现实本身是什么”。

李飞飞在文中举了一个例子:航拍镜头中的建筑从上方看可能完美无缺,但如果试图驱车穿过下方的城市,画面就会分崩离析。原因很简单,渲染器的契约纯粹是视觉上的,它并不对画面背后的物理结构承担任何责任。

渲染器是当前商业落地最成熟的一类世界模型。谷歌的Nano Banana已经将渲染级别的图像生成能力交付到数亿用户手中。

但它的天花板同样清晰——渲染器优化的是视觉合理性,而非物理准确性。它的输出令人赞叹,但不能被信赖去设计建筑或训练机器人。李飞飞对此总结道:渲染器的输出固然美丽,但你无法信任它们去承担那些与现实世界紧密结合的任务。

第二类世界模型是模拟器。它输出的不是像素,而是状态,是一种在几何、物理和动力学层面高度保真的世界表征。



模拟器的职责是构建符合物理规则的三维结构

模拟器的契约是结构性的:几何必须经得起审视,物理必须尊重客观规律,动力学表现必须符合现实约束。

它同时服务于两类受众:一类是人类专业人士,包括建筑师、设计师、电影制作人和游戏开发者;另一类是计算机程序,包括强化学习智能体、机器人控制器和自动驾驶汽车,它们将模拟器作为训练场,测试那些在现实中过于危险或昂贵的场景。

李飞飞在文中有这样一段论述:如果说语言是对世界的一种抽象描述,像素是对世界的一种视觉投影,那么几何、物理和动力学才是世界的本来面目。模拟器必须建立在这个层面之上。


她举例说,模拟器生成的几何结构和物理规则就像一副骨骼——渲染器所需要的视觉外观、规划器所依赖的行动后果,都是从这副骨骼上生长出来的。

这意味着,一个精通模拟的模型,可以将其理解转化为供人观看的像素,也可以转化为供具身智能体使用的行动预测。而一个仅仅精通渲染或仅仅精通规划的模型,则做不到这一点。这是模拟器与其他两类在能力上的本质差异。

第三类世界模型是规划器,输出是行动。给定一个观测值和一个目标,规划器需要回答的核心问题是:智能体下一步应该做什么。



规划器的职责是给智能体下达行动指令

[物价飞涨的时候 这样省钱购物很爽]
这条新闻还没有人评论喔,等着您的高见呢
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    王小玮的戛纳与王小海的夜市 婚姻从不是终点 伊朗副外长:伊海外资产不是华盛顿的战利品
    黄金年代?黄昏时刻?复旦学者称川普抑制世界两极化 老司机:股价高不是恐惧的理由 但这个指标...
    喜剧让他破圈出名,但这不能定义他 60岁拿下世界大奖 她战胜了疾病 更战胜了自己
    河南中专生成北大博士:这不是逆袭 只是回到正常 美股一夜蒸发万亿 "区区"17万非农凭什么
    肺癌早期不是咳嗽,而是频繁出现这3症状 黄仁勋下一步不是芯片?"这些飙股"泄新野心
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站