GPT-5.2性能爆表,但红色警报没有解除

就在刚刚,ChatGPT-5.2发布了。
这是OpenAI成立以来,首次发布红色警报(Code Red)后的第一款产品。
虽然在时间上,GPT-5.2只跟5.1相隔了一个月。但是从公布的性能数据来看,GPT-5.2较上一代提升巨大,而且远超谷歌和Anthropic的同期产品。
然而OpenAI的红色警报并未因此解除,这家公司仍处于危机之中。
究其原因,现在的市场已经逐渐开始对OpenAI祛魅,而是更冷静地审视每一分算力背后的投入产出比。在这种前所未有的环境之下,OpenAI不仅需要证明自己是最强的,还需要证明自己不可被替代。
01
首先要说的,就是GPT-5.2的数学能力。
长期以来,业界普遍认为大语言模型虽然能写代码、能聊天,但在严格的数学推理上总是差强人意。这次GPT-5.2 Thinking在AIME 2025数学竞赛中拿到了100%的满分。

AIME是美国数学邀请赛,题目难度远超普通高中数学,需要扎实的数学功底和灵活的解题思路。GPT-5.2能在这样的测试中全部答对,说明它在数学推理上已经达到了相当高的水平。
在更高难度的FrontierMath测试中,GPT-5.2 Thinking解决了40.3%的专家级数学难题。这个测试专门针对前沿数学研究设计,许多题目连专业数学家都需要花费大量时间思考。能解决其中40%的问题,已经展现出在辅助科学研究方面的潜力。
除了推理和数学,GPT-5.2在专业工作领域也表现突出。
在OpenAI新推出的GDPval基准测试中,GPT-5.2 Thinking在涵盖44种职业的知识工作任务上,有70.9%的情况下击败或打平了顶尖行业专家。
这些任务包括制作演示文稿、构建复杂的财务模型、撰写专业文档等。OpenAI表示,它完成这些任务的速度是人类专家的11倍以上,成本却不到1%。
在软件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上达到55.6%的准确率,在SWE-bench Verified上达到80%。这些测试评估的是模型在真实代码库中修复bug、实现新功能的能力。
早期测试者反馈,它在前端开发和复杂UI实现上尤其出色,甚至能够根据一条提示就生成包含3D效果和物理模拟的完整应用。
GPT-5.2在长文档理解上也有明显进步。在OpenAI的MRCRv2测试中,它成为首个在256k token长度下,针对4-needle变体任务达到近乎100%准确率的模型。
这意味着用户可以上传数百页的报告、合同或研究论文,模型仍能准确理解分散在不同位置的相关信息,并进行综合分析。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
GPT-5.2性能爆表,但红色警报没有解除