图灵奖得主刚离职就曝Meta黑幕,还阴阳28岁上司
Meta Llama 4 「刷榜」,终于实锤了。
金融时报最新专访曝出猛料,图灵奖得主、Meta 前首席科学家 Yann LeCun 在巴黎米其林餐厅接受采访时,亲口承认 Meta 的 Llama 4 模型「测试结果确实被修饰了一点」,团队用不同的模型应对不同测试,以获得更好的成绩。
这位刚刚宣布离职准备创业的 AI 大佬,终于说出了藏在心里许久的实话,同时这也是首次有 Meta 官方层面的核心人物明确承认「刷榜」行为,将行业内的「公开秘密」摆上了台面。

Yann Lecun
关于 Meta 「刷榜」的故事,得从去年 4 月说起。
当时 Meta 发布的 Llama 4 系列模型,号称在各种测试中拿下领先成绩,Llama 4 Maverick 一度在 LMSYS 的 Chatbot Arena 排行榜上冲到第二名,总积分 1417 分,成为第四个突破 1400 分的模型。这张亮眼的成绩单让不少人以为,开源模型终于要扬眉吐气了。
但很快就有人察觉不对劲。细心的研究者发现,Meta 官方图表的注释里藏着猫腻——用于测试的是一个「针对对话场景优化的实验性版本」,说白了就是专门为排行榜定制的特供版。
这个定制版和公开版表现完全不同,回答更冗长,频繁使用表情符号,明显经过特殊调教。等到 Arena 引入「风格控制」功能,中和掉字数和格式这些表面文章后,Llama 4 Maverick 的排名直接从第 2 掉到第 5。
后续更多质疑 Llama 4 刷榜的证据和质疑声,如潮水般涌向 Meta。
Reddit 的 r/LocalLLaMA 论坛上,许多原本对 Llama 系列寄予厚望的用户表达了失望情绪,甚至有人戏称是时候将论坛改名为「LocalGemma」了,调侃 Llama 4 发布如同迟到的愚人节玩笑。
对于 Meta 提交榜单特供版模型的做法,开源社区更是群情激愤。有资深开发者批评这有违开源精神,认为 Meta 一方面想凭借开源博取社区声量,另一方面又搞小动作防止自家模型被超越,属于双标行为。

此外,LeCun 还在采访中透露了更多内幕。
他说 Meta 当时在 AI 方向上急转弯,扎克伯格对生成式 AI 团队施加了巨大压力,要求加快开发和部署速度,结果导致沟通失效。
「我们有很多新想法,本该由团队去实现,但他们只是选择那些安全、已验证过的东西。当你这样做时,就会落伍。」
更致命的是,扎克伯格对 Llama 4 的表现极其失望,基本上对所有参与项目的人都失去了信心,干脆把整个生成式 AI 组织边缘化。LeCun 说,很多人已经离开,还有更多人即将离开。
[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
金融时报最新专访曝出猛料,图灵奖得主、Meta 前首席科学家 Yann LeCun 在巴黎米其林餐厅接受采访时,亲口承认 Meta 的 Llama 4 模型「测试结果确实被修饰了一点」,团队用不同的模型应对不同测试,以获得更好的成绩。
这位刚刚宣布离职准备创业的 AI 大佬,终于说出了藏在心里许久的实话,同时这也是首次有 Meta 官方层面的核心人物明确承认「刷榜」行为,将行业内的「公开秘密」摆上了台面。

Yann Lecun
关于 Meta 「刷榜」的故事,得从去年 4 月说起。
当时 Meta 发布的 Llama 4 系列模型,号称在各种测试中拿下领先成绩,Llama 4 Maverick 一度在 LMSYS 的 Chatbot Arena 排行榜上冲到第二名,总积分 1417 分,成为第四个突破 1400 分的模型。这张亮眼的成绩单让不少人以为,开源模型终于要扬眉吐气了。
但很快就有人察觉不对劲。细心的研究者发现,Meta 官方图表的注释里藏着猫腻——用于测试的是一个「针对对话场景优化的实验性版本」,说白了就是专门为排行榜定制的特供版。
这个定制版和公开版表现完全不同,回答更冗长,频繁使用表情符号,明显经过特殊调教。等到 Arena 引入「风格控制」功能,中和掉字数和格式这些表面文章后,Llama 4 Maverick 的排名直接从第 2 掉到第 5。
后续更多质疑 Llama 4 刷榜的证据和质疑声,如潮水般涌向 Meta。
Reddit 的 r/LocalLLaMA 论坛上,许多原本对 Llama 系列寄予厚望的用户表达了失望情绪,甚至有人戏称是时候将论坛改名为「LocalGemma」了,调侃 Llama 4 发布如同迟到的愚人节玩笑。
对于 Meta 提交榜单特供版模型的做法,开源社区更是群情激愤。有资深开发者批评这有违开源精神,认为 Meta 一方面想凭借开源博取社区声量,另一方面又搞小动作防止自家模型被超越,属于双标行为。

此外,LeCun 还在采访中透露了更多内幕。
他说 Meta 当时在 AI 方向上急转弯,扎克伯格对生成式 AI 团队施加了巨大压力,要求加快开发和部署速度,结果导致沟通失效。
「我们有很多新想法,本该由团队去实现,但他们只是选择那些安全、已验证过的东西。当你这样做时,就会落伍。」
更致命的是,扎克伯格对 Llama 4 的表现极其失望,基本上对所有参与项目的人都失去了信心,干脆把整个生成式 AI 组织边缘化。LeCun 说,很多人已经离开,还有更多人即将离开。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
图灵奖得主刚离职就曝Meta黑幕,还阴阳28岁上司