最新顶级模型GPT-5.2已上线24小时:差评如潮! | 温哥华地产中心

Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_20e79db4d750c542da7a9e79aeb94807, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
最新顶级模型GPT-5.2已上线24小时:差评如潮! | 温哥华地产中心

最新顶级模型GPT-5.2已上线24小时:差评如潮!

2025-12-13 | 来源: 机器之心 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

不同于 MMLU/GPQA 那种 AI 能刷高分的「学术题」，SimpleBench 更接地气，测的是「像人一样思考」而不是死记硬背。早期模型如 o1-preview 只拿 41.7%，到现在前沿模型也才 50-60% 左右。

大家本以为 GPT-5.1 是大跃进，结果 SimpleBench 测试分数一出来，网友开启群嘲模式，Reddit 上各种「失望」、「倒退」的帖子。

前 AWS 和谷歌总经理 Bindu Reddy 也发帖称，GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0，GPT-5.2 并没有在 LiveBench 上登顶。它在 token 成本和消耗的 token 数量上也比 5.1 贵得多，目前可能不值得从 5.1 切换。

https://x.com/bindureddy/status/1999633231558377683?s=20

当然也有网友认为，这些基准测试总是忽略重点，实际应用往往才是决定性的。

garlic 有几个 r 数不明白

之前，strawberry 有几个 r 曾难倒一众大模型，不过经过迭代，这些大模型基本上都能回答出正确答案。这次有网友换了种问法「garlic 有几个 r？」GPT-5.2 一口回答：0 个，该网友嘲讽：GPT-5.2 is AGI。

另一位网友复刻了这一提示词，并测试了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四个 AI 模型。

结果除了 GPT-5.2 回答错误外，其他三款模型均过关。

[物价飞涨的时候这样省钱购物很爽] 好新闻没人评论怎么行，我来说几句

分享:

上一页 123 4 5 ...8 下一页

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

推荐:

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

Copyright © 温哥华网, all rights are reserved.

温哥华网为北美中文网传媒集团旗下网站