网民熬夜玩儿疯,Claude Opus 4.7来了

2026-04-17 | 来源: 量子位 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

用Mythos向外界虚晃一枪后，Anthropic猝不及防把Claude Opus 4.7抬了上来。

不少小伙伴都熬夜玩儿疯了！

一骨碌从床上坐起来边冲浪边上手体验，我从Opus 4.7身上总结了一个坏消息和一些好消息。

先说坏消息吧——Opus 4.7身上，怎么看怎么有点故人之姿。

动不动就要“稳稳接住”我。

不少网友也反馈，怎么说是升级，但Opus 4.7越用越像GPT？？？

如果是真的，这可不是什么好事情（无奈闭眼.jpg）。

相比坏消息只有一个，好消息那是有一箩筐。

在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面，都比前作更好。但Agentic search等几个单项能力上有所下降。

Anthropic还很臭屁地表示：

Opus 4.7是我们家目前最强大的公开可用模型。

不过这不是我们最强大的模型哟～～

看来最强大的还是密而不发的Mythos。

看看上面的表格，Mythos在那些测试上的整体表现，均优越约10%至15%。

毫无疑问，Mythos Preview是目前Anthropic手里最夯的一张牌，能力拉满，但价格也是Opus 4.7的5倍。

相比之下，Opus 4.7更像是安全体系完成全验证、定价亲民且全平台开放的最强量产版。

但……所谓智者千虑必有一失。

强大的Opus 4.7还是在昨日的阴沟里面翻了船：

Claude Opus 4.7突袭，核心升级四大方向

通览下来，这个公开最强的Opus 4.7，在四个方向上都有突出表现。

高级软件工程领域：值得托付

Opus 4.7最显著的进步在高级软件工程领域。

来看这组数据：

SWE-bench Verified测试达到78.2%；

SWE-bench Multimodal达到72.7%；

Terminal-Bench 2.0拿下68.8%；

Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍；

GitHub 93项任务编码基准也提升了13%。

Cursor的CEO Michael Truell给出了一个关键评价：

在CursorBench上，Opus 4.7从58%跃升到70%，这个跃升意义重大。

这种提升体现在三个关键特性上。

第一，严格遵循指令。

Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述，而是字面执行。

这意味着以前你写“如果可能的话，尝试优化这段代码”这种提示词，模型可能会选择性忽略。

现在你说“优化这段代码”，它就一定会执行。

这种变化要求用户重新调整提示词策略，软修饰符如“if possible/ideally/try to”的权重变得更高，硬限制需要更明确。

第二，输出前自我验证。

Opus 4.7会在报告结果前devise ways to verify its own outputs，就像一个资深工程师在提交代码前会自己跑一遍测试。

第三，擅长复杂多文件变更、模糊调试、跨服务代码审查。

Notion的AI Lead Sarah Sachs分享了一个数据：

面对复杂多步骤工作流，Opus 4.7比Opus 4.6提升14%，而且token消耗更少，工具错误只有三分之一。

它是第一个通过我们隐性需求测试的模型。

视觉能力：分辨率×3，看见更多细节

在视觉能力方面，Opus 4.7也有很不错的进步。

[物价飞涨的时候这样省钱购物很爽] 这条新闻还没有人评论喔，等着您的高见呢

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

网民熬夜玩儿疯,Claude Opus 4.7来了

意见