Claude 4.5重夺最强模型王冠:编码能力超越人类专家

11月25日凌晨,Anthropic发布了其迄今最强大的AI模型Claude Opus 4.5。该公司宣称,新模型在软件工程任务上实现了“最先进性能”,进一步加剧了其与OpenAI、谷歌等对手之间的竞争。
Claude Opus 4.5在Anthropic软件工程测试中表现出色,得分超越Gemini 3 Pro、GPT-5.1等一众对手。

图:Claude Opus 4.5在SWE Bench软件工程测试中的性能表现
公司数据显示,该模型在SWE-bench Verified(一项评估现实世界软件工程能力的基准测试)中达到了80.9%的准确率,表现超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及谷歌的Gemini 3 Pro(76.2%)。
同时,Anthropic大幅下调了这款模型的定价:输入token降至每百万5美元,输出token为每百万25美元,较前代产品Claude Opus 4.1(输入15美元/百万,输出75美元/百万)下降约三分之二。
降价使得尖端AI技术对广大开发者和企业更加触手可及,同时也给竞争对手带来了性能与价格的双重压力。
在现实任务中展现更优判断力
测试人员普遍反馈,新模型在各种任务中展现出更强的判断力与直觉。他们将这种进步描述为:模型开始领悟现实情境中的“关键所在”。
“这个模型好像突然‘开窍’了,”开发者关系负责人阿尔伯特表示,“它在处理许多现实问题时表现出的直觉和判断力,让人感觉相比前代模型实现了一次质的跨越。”
阿尔伯特以自身工作为例进一步说明:过去他仅利用AI收集信息,而对它们的整合与优先级排序能力持保留态度。如今,借助Opus 4.5,他已开始委托更完整的任务,通过连接Slack和内部文档,模型能生成与他预期高度契合的连贯摘要。
宾夕法尼亚大学沃顿商学院教授、生成式AI实验室联合主任伊桑·莫利克测试后评论道,新模型的能力确实处于技术前沿。其最显着的提升在于实际应用,例如跨软件操作(如用Excel制作PPT)。

[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
Claude Opus 4.5深夜突袭,AI编程进入超人时代 |
Claude 4不是大模型,是一个能连续上班7小时的AI |
Claude3.7Sonnet深夜上线,AI编程的天又被捅破 |
最强模型一夜易主 Claude 3狙击GPT-5 理解力近人类(图) |
推荐:
Claude 4.5重夺最强模型王冠:编码能力超越人类专家