Claude 4.5重夺最强模型王冠:编码能力超越人类专家

2025-11-25 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

11月25日凌晨，Anthropic发布了其迄今最强大的AI模型Claude Opus 4.5。该公司宣称，新模型在软件工程任务上实现了“最先进性能”，进一步加剧了其与OpenAI、谷歌等对手之间的竞争。

Claude Opus 4.5在Anthropic软件工程测试中表现出色，得分超越Gemini 3 Pro、GPT-5.1等一众对手。

图：Claude Opus 4.5在SWE Bench软件工程测试中的性能表现

公司数据显示，该模型在SWE-bench Verified（一项评估现实世界软件工程能力的基准测试）中达到了80.9%的准确率，表现超越了OpenAI的GPT-5.1-Codex-Max（77.9%）、Anthropic自家的Sonnet 4.5（77.2%）以及谷歌的Gemini 3 Pro（76.2%）。

同时，Anthropic大幅下调了这款模型的定价：输入token降至每百万5美元，输出token为每百万25美元，较前代产品Claude Opus 4.1（输入15美元/百万，输出75美元/百万）下降约三分之二。

降价使得尖端AI技术对广大开发者和企业更加触手可及，同时也给竞争对手带来了性能与价格的双重压力。

在现实任务中展现更优判断力

测试人员普遍反馈，新模型在各种任务中展现出更强的判断力与直觉。他们将这种进步描述为：模型开始领悟现实情境中的“关键所在”。

“这个模型好像突然‘开窍’了，”开发者关系负责人阿尔伯特表示，“它在处理许多现实问题时表现出的直觉和判断力，让人感觉相比前代模型实现了一次质的跨越。”

阿尔伯特以自身工作为例进一步说明：过去他仅利用AI收集信息，而对它们的整合与优先级排序能力持保留态度。如今，借助Opus 4.5，他已开始委托更完整的任务，通过连接Slack和内部文档，模型能生成与他预期高度契合的连贯摘要。

宾夕法尼亚大学沃顿商学院教授、生成式AI实验室联合主任伊桑·莫利克测试后评论道，新模型的能力确实处于技术前沿。其最显着的提升在于实际应用，例如跨软件操作（如用Excel制作PPT）。

[加西网正招聘多名全职sales 待遇优] 好新闻没人评论怎么行，我来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

Claude 4.5重夺最强模型王冠:编码能力超越人类专家

意见