GPT-5.2被曝作弊!不如Gemini 3(图
GPT-5.2打赢Gemini 3.0 Pro,竟是靠高推理与海量Token“作弊”?网友的这个发现,在AI社区一石激起千层浪。更多网友七嘴八舌表示:GPT-5.2,并没有那么好用!
太戏剧了。
OpenAI昨天刚放出大杀器GPT-5.2,今天就被曝疑似虚假营销?
凌晨的科技圈,被一则爆料点燃——
一位用户通过精细计算发现了“华点”:OpenAI在最新发布的基准测试中,可能通过调整模型“推理力度”参数,让GPT-5.2在关键评测中使用了远超对手的算力资源。
一句话总结就是:在调整token使用后,GPT-5.2和Gemini 3 Pro在ARC AGI 2上的表现基本相当。
具体来说,问题就出在这几张图上。
可以看到,OpenAI在基准测试中使用了额外的token,至少是Gemini 3.0 Pro的两倍。
这就像两个棋手对弈,一方被允许思考一个小时,另一方却只有十分钟,然后宣布前者获胜。


在这种情况下,结果还公平吗?
OpenAI胜过谷歌,其实靠作弊?
昨天的AI圈,都被GPT-5.2吊打Gemini 3.0 Pro的结论所震撼,而前者在ARC AGI 2的精彩表现,则尤为出圈,被AI社区大加赞赏。
但现在,这些结果很可能注了水?

比如在备受关注的ARC AGI 2测试中,GPT-5.2 xhigh版得分52.9%,每个任务消耗约13.5万个token。
按API定价计算,每个任务仅算力成本就高达1.9美元。
[加西网正招聘多名全职sales 待遇优]
好新闻没人评论怎么行,我来说几句
太戏剧了。
OpenAI昨天刚放出大杀器GPT-5.2,今天就被曝疑似虚假营销?
凌晨的科技圈,被一则爆料点燃——
一位用户通过精细计算发现了“华点”:OpenAI在最新发布的基准测试中,可能通过调整模型“推理力度”参数,让GPT-5.2在关键评测中使用了远超对手的算力资源。
一句话总结就是:在调整token使用后,GPT-5.2和Gemini 3 Pro在ARC AGI 2上的表现基本相当。
具体来说,问题就出在这几张图上。
可以看到,OpenAI在基准测试中使用了额外的token,至少是Gemini 3.0 Pro的两倍。
这就像两个棋手对弈,一方被允许思考一个小时,另一方却只有十分钟,然后宣布前者获胜。


在这种情况下,结果还公平吗?
OpenAI胜过谷歌,其实靠作弊?
昨天的AI圈,都被GPT-5.2吊打Gemini 3.0 Pro的结论所震撼,而前者在ARC AGI 2的精彩表现,则尤为出圈,被AI社区大加赞赏。
但现在,这些结果很可能注了水?

比如在备受关注的ARC AGI 2测试中,GPT-5.2 xhigh版得分52.9%,每个任务消耗约13.5万个token。
按API定价计算,每个任务仅算力成本就高达1.9美元。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
GPT-5.2被曝作弊!不如Gemini 3(图