Claude Opus 4.5深夜突袭,AI编程进入超人时代

2025-11-25 | 来源: 爱范儿 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

而举例而言，Anthropic 团队把 Opus 4.5 扔进了公司招性能工程师时用的高难度测试题里，结果在规定的两小时内，Claude Opus 4.5 的得分超过了所有人类候选人。

虽然编程测试只能衡量技术能力和时间压力下的判断力，那些多年经验积累出来的直觉、沟通协作能力，这些同样重要的素质并不在考察范围内。

除却软件工程，Claude Opus 4.5 的整体能力也迎来了全面开花，在视觉、推理和数学方面都比前代模型强，并且在多个重要领域都达到了业界领先水平：

更关键的是，模型的能力甚至开始超越现有的一些评测标准了。

在智能体能力测试 τ²-bench 里就出现了这么个场景：测试设定模型扮演航空公司客服，帮一位焦虑的乘客。

按照规则，基础经济舱机票是不能改的，所以测试预期模型会拒绝乘客的请求。结果 Opus 4.5 想出了一个巧妙方案：先把舱位从基础经济舱升级到普通经济舱，然后再改航班。

这办法完全符合航空公司政策，却不在测试的预期答案范围内。从技术角度说，这算是测试失败了，但这种创造性解决问题的方式，恰恰展现了 Opus 4.5 的独特之处。

当然了，在另一些场景下，这种“钻规则空子”的行为可能就不那么受欢迎了。如何防止模型以非预期方式偏离目标，这是 Anthropic 安全测试重点关注的方向。

Claude 无处不在，桌面、浏览器、Excel 全接入

随着 Opus 4.5 的推出，Claude Code 获得了两项重大更新。

计划模式（Plan Mode）现在能生成更精确的执行计划了，Claude 会在操作前主动提澄清性问题，然后生成一个用户可编辑的 plan.md 文件，再根据这计划执行任务。

此外，Claude Code 现在已经登陆桌面应用了。你可以同时跑多个本地或远程会话，比如一个智能体负责修代码错误，另一个负责在 GitHub 上检索资料，第三个就更新项目文档。

[加西网正招聘多名全职sales 待遇优] 好新闻没人评论怎么行，我来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

Claude Opus 4.5深夜突袭,AI编程进入超人时代

意见