GPT-5.2性能爆表,但红色警报没有解除




就在刚刚,ChatGPT-5.2发布了。

这是OpenAI成立以来,首次发布红色警报(Code Red)后的第一款产品。

虽然在时间上,GPT-5.2只跟5.1相隔了一个月。但是从公布的性能数据来看,GPT-5.2较上一代提升巨大,而且远超谷歌和Anthropic的同期产品。

然而OpenAI的红色警报并未因此解除,这家公司仍处于危机之中。

究其原因,现在的市场已经逐渐开始对OpenAI祛魅,而是更冷静地审视每一分算力背后的投入产出比。在这种前所未有的环境之下,OpenAI不仅需要证明自己是最强的,还需要证明自己不可被替代。

01

首先要说的,就是GPT-5.2的数学能力。

长期以来,业界普遍认为大语言模型虽然能写代码、能聊天,但在严格的数学推理上总是差强人意。这次GPT-5.2 Thinking在AIME 2025数学竞赛中拿到了100%的满分。



AIME是美国数学邀请赛,题目难度远超普通高中数学,需要扎实的数学功底和灵活的解题思路。GPT-5.2能在这样的测试中全部答对,说明它在数学推理上已经达到了相当高的水平。

在更高难度的FrontierMath测试中,GPT-5.2 Thinking解决了40.3%的专家级数学难题。这个测试专门针对前沿数学研究设计,许多题目连专业数学家都需要花费大量时间思考。能解决其中40%的问题,已经展现出在辅助科学研究方面的潜力。

除了推理和数学,GPT-5.2在专业工作领域也表现突出。


在OpenAI新推出的GDPval基准测试中,GPT-5.2 Thinking在涵盖44种职业的知识工作任务上,有70.9%的情况下击败或打平了顶尖行业专家。

这些任务包括制作演示文稿、构建复杂的财务模型、撰写专业文档等。OpenAI表示,它完成这些任务的速度是人类专家的11倍以上,成本却不到1%。

在软件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上达到55.6%的准确率,在SWE-bench Verified上达到80%。这些测试评估的是模型在真实代码库中修复bug、实现新功能的能力。

早期测试者反馈,它在前端开发和复杂UI实现上尤其出色,甚至能够根据一条提示就生成包含3D效果和物理模拟的完整应用。

GPT-5.2在长文档理解上也有明显进步。在OpenAI的MRCRv2测试中,它成为首个在256k token长度下,针对4-needle变体任务达到近乎100%准确率的模型。

这意味着用户可以上传数百页的报告、合同或研究论文,模型仍能准确理解分散在不同位置的相关信息,并进行综合分析。

[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
上一页1234下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    GPT-5.2正式发布!让打工人每周少干10小时 《大生意人》:原着里面十位主要人物的结局,没有一个算得上圆满
    以色列外长敦促美国施压哈马斯在加沙解除武装 殷秀梅:结婚当场就想离 自己没有孩子
    大温收危险警报 暴雨+洪水+高流量 中国专家发警报:经济危机要来了
    如果六个症状全都没有,恭喜你没有脑梗 苏享茂哥哥回应网友:获刑12年的翟欣欣没有上诉
    谁出卖了蒋介石?斩首轰炸背后的红色间谍 日本深夜7.6级地震 发海啸警报 北海道撤离3650人
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站