为什么"从1数到10"这件事所有视频模型都不会?

AI 已经学会了电影的视觉语法,但还没学会世界的物理语法。




头图来源:Nano Banana

作者|汤一涛

编辑|靖宇

Seedance 2.0 有多猛,过去一个月大家已经见识过了。好莱坞已经集体下场发了声明,西半球最强法务部迪士尼也给字节跳动发了律师函。

但如果你让它做一件事:生成一个男人从 1 数到 10 的视频,它就露馅了。

生成出来的「人」五官端正、皮肤质感逼真,厨房背景细节丰富得像是实拍。他说出「one」的时候还一切正常,然后就开始鬼打墙,嘴里不断重复「t、t、t」这个音节(不是从 1 到 10 中任何一个数字的发音);或者伸出三根手指,口中却自信地说出「ten」。从头到尾,他竖起的手指没超过三根。

因为背景和人物都太真实了,所以手指崩坏的瞬间反而制造出了一种强烈的「伪人感」。

这道题不只是 Seedance 2.0 的噩梦。

视频来自一位在 X 网友 fofr(简介显示是在 DeepMind 的开发者)。去年他就发现,「从 1 数到 10 并用手指比出数字」这个对三岁小孩都毫无难度的任务,是当前所有 AI 视频模型的共同死穴。

Seedance 2.0 发布后,他第一时间把这道老题扔了过去,果然也翻车了。

网友在这条推文下面掀起了一场自发的「AI 数数挑战赛」。他们把同一道题喂给了 Sora、Veo、Kling 等几乎所有主流模型,结果全军覆没,没有一个能正确地从 1 数到 10。

当一个行业最强的产品们被一道幼儿园级别的题目集体难倒,这其实指向了一个问题:为什么这些模型已经能骗过你的眼睛,却无法理解常识?

它们到底「理解」了什么,又缺失了什么?


01统计预测 vs 理解世界:AI 视频的能力边界

「数不到 10」不是一个孤立的 bug,它揭示了一整片当前 AI 的能力盲区。

原因也不复杂:所有的视频模型本质上做的是同一件事,从海量视频数据中学习统计规律,然后在生成每一帧画面时预测「接下来什么样的像素排列最可能出现」。这和大语言模型的「预测下一个词」(Next-Token Prediction)是同一套逻辑。

所以它们能把人脸毛孔、厨房光影、衣服褶皱渲染得以假乱真,因为训练数据里有海量样本,统计规律足够丰富。但一旦任务超出了样本的范畴,进入「常识」的领域,问题就来了。

这些问题大致可以分成三类。

首先就是手部精细动作,这是最广为人知的「AI 照妖镜」。从图像生成时代的「六指人」,到视频生成时代的「软糖手指」,手一直是 AI 的噩梦。



[加西网正招聘多名全职sales 待遇优]
还没人说话啊,我想来说几句
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    在日本住了8年,我们全家为什么选择搬走 《太平年》第二十一集中"岂宜重问后庭花"是什么意思?为什么钱弘佐认为是程昭悦在骂他?
    父母爱情:江昌义为什么惹人厌?行为说明一切,辜负了江德福 胡锦涛当年为什么保不住令计划(图
    一层楼一半都是自助,为什么商场里自助餐越来越多? 潜伏逢场作戏的晚秋为什么馋余则成身体,主要几点原因?
    肯德基APP,为什么被吐槽——会"逼疯"顾客? 为什么要提高农民的养老金 因为"这个土地不养人"
    我问伊朗记者为什么不走,她说"我还能去哪" 1979年,为什么这一年是伊朗命运的分水岭?
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站