最新顶级模型GPT-5.2已上线24小时:差评如潮!

X 上充斥着对 GPT-5.2 的恶评。


昨天,OpenAI 十周年之际,拿出了最新的顶级模型 GPT-5.2 系列,官方号称是「迄今为止在专业知识工作上最强大的模型系列」,在众多基准测试中,GPT-5.2 也都刷新了最新的 SOTA 水平。



但是一夜之间口碑反转,大批网友给 GPT-5.2 打差评。

风投公司 Menlo Ventures 合伙人 @deedydas 发帖称,GPT 5.2 比以往任何时候都更聪明,但 OpenAI 的核心消费者群体仍然怀念 4o。

Reddit 上的 ChatGPT 用户一致认为 GPT-5.2 太平淡、安全过度、「把成年人当幼儿园小孩对待」,而且「不像是升级,反而像是倒退」。

这是 OpenAI 的困境:他们想打造更好的模型来赢得企业市场,但更广泛的用户群体其实并不太在意模型的智能水平。



https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 测试结果拉胯


有网友晒出 GPT-5.2 在 SimpleBench 上的「成绩单」,GPT-5.2 的得分低于 Claude Sonnet 3.7,后者是一个差不多一年前的模型;GPT-5.2 Pro 的表现也没好多少,勉强超过 GPT-5。



https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一个 2024 年由 AI Explained(YouTube 频道)推出的基准测试,专门测 AI 的「常识推理」能力,包括时空推理、社会常识、语言陷阱题等,总共 200 多道多选题。它设计得「简单」,高中生水平就能轻松答对(人类基准:83.7%),但 AI 模型常栽跟头,因为它们靠记忆和近似推理,容易忽略现实逻辑或上当。

[加西网正招聘多名全职sales 待遇优]
还没人说话啊,我想来说几句
上一页1234...8下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    《吾乡荔波》上线首日登上微博热搜 "黔南治愈方"温暖千万人心 广播剧《紫金草》全网声动上线
    名导豪宅血案32小时 亲儿逃亡南加州大终落网  (1条评论) 特斯拉"350美元产品" 出人意料3小时卖光
    每周连轴转80小时 加拿大医生自爆行业黑幕 小型星系最新发现颠覆天文学家既有认知
    "影动延平"活动隆重开幕,中国移动咪咕微短剧《孤岛围猎》上线 年代轻喜剧《老舅》今日开播,笑泪交织的欢腾人生正式上线
    澳洲海滩枪案最新:发现2枚土制炸弹 GPT-5.2降智遭全网差评!奥特曼慌了
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站