Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_82efcd1bb226e76481401005d4feda03, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
最新顶级模型GPT-5.2已上线24小时:差评如潮! | 温哥华地产中心
   

最新顶级模型GPT-5.2已上线24小时:差评如潮!

X 上充斥着对 GPT-5.2 的恶评。


昨天,OpenAI 十周年之际,拿出了最新的顶级模型 GPT-5.2 系列,官方号称是「迄今为止在专业知识工作上最强大的模型系列」,在众多基准测试中,GPT-5.2 也都刷新了最新的 SOTA 水平。



但是一夜之间口碑反转,大批网友给 GPT-5.2 打差评。

风投公司 Menlo Ventures 合伙人 @deedydas 发帖称,GPT 5.2 比以往任何时候都更聪明,但 OpenAI 的核心消费者群体仍然怀念 4o。

Reddit 上的 ChatGPT 用户一致认为 GPT-5.2 太平淡、安全过度、「把成年人当幼儿园小孩对待」,而且「不像是升级,反而像是倒退」。

这是 OpenAI 的困境:他们想打造更好的模型来赢得企业市场,但更广泛的用户群体其实并不太在意模型的智能水平。



https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 测试结果拉胯


有网友晒出 GPT-5.2 在 SimpleBench 上的「成绩单」,GPT-5.2 的得分低于 Claude Sonnet 3.7,后者是一个差不多一年前的模型;GPT-5.2 Pro 的表现也没好多少,勉强超过 GPT-5。



https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一个 2024 年由 AI Explained(YouTube 频道)推出的基准测试,专门测 AI 的「常识推理」能力,包括时空推理、社会常识、语言陷阱题等,总共 200 多道多选题。它设计得「简单」,高中生水平就能轻松答对(人类基准:83.7%),但 AI 模型常栽跟头,因为它们靠记忆和近似推理,容易忽略现实逻辑或上当。

[物价飞涨的时候 这样省钱购物很爽]
好新闻没人评论怎么行,我来说几句
上一页1234...8下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站