网民熬夜玩儿疯,Claude Opus 4.7来了
用Mythos向外界虚晃一枪后,Anthropic猝不及防把Claude Opus 4.7抬了上来。
不少小伙伴都熬夜玩儿疯了!
一骨碌从床上坐起来边冲浪边上手体验,我从Opus 4.7身上总结了一个坏消息和一些好消息。
先说坏消息吧——Opus 4.7身上,怎么看怎么有点故人之姿。
动不动就要“稳稳接住”我。
不少网友也反馈,怎么说是升级,但Opus 4.7越用越像GPT???
如果是真的,这可不是什么好事情(无奈闭眼.jpg)。
相比坏消息只有一个,好消息那是有一箩筐。
在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面,都比前作更好。但Agentic search等几个单项能力上有所下降。
Anthropic还很臭屁地表示:
Opus 4.7是我们家目前最强大的公开可用模型。
不过这不是我们最强大的模型哟~~
看来最强大的还是密而不发的Mythos。
看看上面的表格,Mythos在那些测试上的整体表现,均优越约10%至15%。
毫无疑问,Mythos Preview是目前Anthropic手里最夯的一张牌,能力拉满,但价格也是Opus 4.7的5倍。
相比之下,Opus 4.7更像是安全体系完成全验证、定价亲民且全平台开放的最强量产版。
但……所谓智者千虑必有一失。
强大的Opus 4.7还是在昨日的阴沟里面翻了船:
Claude Opus 4.7突袭,核心升级四大方向
通览下来,这个公开最强的Opus 4.7,在四个方向上都有突出表现。
高级软件工程领域:值得托付
Opus 4.7最显著的进步在高级软件工程领域。
来看这组数据:
SWE-bench Verified测试达到78.2%;
SWE-bench Multimodal达到72.7%;
Terminal-Bench 2.0拿下68.8%;
Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍;
GitHub 93项任务编码基准也提升了13%。
Cursor的CEO Michael Truell给出了一个关键评价:
在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。
这种提升体现在三个关键特性上。
第一,严格遵循指令。
Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述,而是字面执行。
这意味着以前你写“如果可能的话,尝试优化这段代码”这种提示词,模型可能会选择性忽略。
现在你说“优化这段代码”,它就一定会执行。
这种变化要求用户重新调整提示词策略,软修饰符如“if possible/ideally/try to”的权重变得更高,硬限制需要更明确。
第二,输出前自我验证。
Opus 4.7会在报告结果前devise ways to verify its own outputs,就像一个资深工程师在提交代码前会自己跑一遍测试。
第三,擅长复杂多文件变更、模糊调试、跨服务代码审查。
Notion的AI Lead Sarah Sachs分享了一个数据:
面对复杂多步骤工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具错误只有三分之一。
它是第一个通过我们隐性需求测试的模型。
视觉能力:分辨率×3,看见更多细节
在视觉能力方面,Opus 4.7也有很不错的进步。
[物价飞涨的时候 这样省钱购物很爽]
好新闻没人评论怎么行,我来说几句
不少小伙伴都熬夜玩儿疯了!
一骨碌从床上坐起来边冲浪边上手体验,我从Opus 4.7身上总结了一个坏消息和一些好消息。
先说坏消息吧——Opus 4.7身上,怎么看怎么有点故人之姿。
动不动就要“稳稳接住”我。
不少网友也反馈,怎么说是升级,但Opus 4.7越用越像GPT???
如果是真的,这可不是什么好事情(无奈闭眼.jpg)。
相比坏消息只有一个,好消息那是有一箩筐。
在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面,都比前作更好。但Agentic search等几个单项能力上有所下降。
Anthropic还很臭屁地表示:
Opus 4.7是我们家目前最强大的公开可用模型。
不过这不是我们最强大的模型哟~~
看来最强大的还是密而不发的Mythos。
看看上面的表格,Mythos在那些测试上的整体表现,均优越约10%至15%。
毫无疑问,Mythos Preview是目前Anthropic手里最夯的一张牌,能力拉满,但价格也是Opus 4.7的5倍。
相比之下,Opus 4.7更像是安全体系完成全验证、定价亲民且全平台开放的最强量产版。
但……所谓智者千虑必有一失。
强大的Opus 4.7还是在昨日的阴沟里面翻了船:
Claude Opus 4.7突袭,核心升级四大方向
通览下来,这个公开最强的Opus 4.7,在四个方向上都有突出表现。
高级软件工程领域:值得托付
Opus 4.7最显著的进步在高级软件工程领域。
来看这组数据:
SWE-bench Verified测试达到78.2%;
SWE-bench Multimodal达到72.7%;
Terminal-Bench 2.0拿下68.8%;
Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍;
GitHub 93项任务编码基准也提升了13%。
Cursor的CEO Michael Truell给出了一个关键评价:
在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。
这种提升体现在三个关键特性上。
第一,严格遵循指令。
Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述,而是字面执行。
这意味着以前你写“如果可能的话,尝试优化这段代码”这种提示词,模型可能会选择性忽略。
现在你说“优化这段代码”,它就一定会执行。
这种变化要求用户重新调整提示词策略,软修饰符如“if possible/ideally/try to”的权重变得更高,硬限制需要更明确。
第二,输出前自我验证。
Opus 4.7会在报告结果前devise ways to verify its own outputs,就像一个资深工程师在提交代码前会自己跑一遍测试。
第三,擅长复杂多文件变更、模糊调试、跨服务代码审查。
Notion的AI Lead Sarah Sachs分享了一个数据:
面对复杂多步骤工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具错误只有三分之一。
它是第一个通过我们隐性需求测试的模型。
视觉能力:分辨率×3,看见更多细节
在视觉能力方面,Opus 4.7也有很不错的进步。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:



