网民熬夜玩儿疯,Claude Opus 4.7来了
官方数据显示,长边最大支持2576像素(≈3.75百万像素),是Opus 4.6的3倍以上;XBOW视觉敏锐度达到 98.5%(Opus 4.6仅54.5%)。
实际落地场景几乎全覆盖,能直接识别完整Figma设计稿、1080p终端截图(含灰色小字),精准解析复杂技术架构图、财报图表,在计算机使用(Computer Use)场景中,可清晰读取高密度UI元素,视觉处理能力近乎满分。
换句话说,化学结构解析、复杂技术图表识别、像素级精确的UI元素定位,这些过去需要专门模型的任务,现在可以直接用Opus 4.7一个模搞定。
Figma听了立刻股价大跌,怎一个惨字了得。
指令遵循与推理:更可控,更可靠
Opus 4.7在指令遵循上也有长足进步。
它不再试图猜测用户的真实意图,而是严格按照字面执行。
这次升级的核心优势在于严苛的字面执行,如果用户要求 “不要用 TypeScript” ,模型就坚决不用;用户要求 “输出 JSON” ,得到的输出就一定没有任何额外前缀。
这种变化对老用户来说可能需要适应(同时旧提示词易出现意外结果,需重新校准),但对需要精确控制的场景来说是福音。
在推理方面,100万token长上下文场景表现亮眼,BFS任务得分58.6%*(Opus 4.6成绩为41.2%),复杂推理中逻辑连贯性显著提升。
Agent能力增强:为Agent而生的版本
如果说之前的Claude是为对话而生,Opus 4.7则是为Agent而生。
这体现在几个方面。
首先总体来说,Opus 4.7的核心Agent能力有了全方位提升。
多家AI知名企业拿出了实际使用效果相关数据——Notion多步骤工作流成功率提升14%,工具调用错误率降至1/3;Vending-Bench 2长期经营模拟中,最终余额达10937美元(Opus 4.6剩了8018美元),长周期决策更稳健;Genspark场景下,抗死循环、一致性、错误恢复三大生产级特性拉满。
同时具备文件系统记忆,跨多会话可靠记住关键信息,新任务可减少40%重复上下文输入。
Cognition的CEO Scott Wu的描述更形象:
Opus 4.7在Devin中将长周期自主性提升到新水平。
它能连贯工作数小时,突破难题而不是放弃,解锁了我们以前无法可靠运行的一类深度调查工作。
与此同时,Opus 4.7还为开发者提供了许多令人狂喜的Agent相关四件套。
第一,新增xhigh推理等级,作为默认等级介于high与max之间。
这给了开发者更精细的控制权,可以在推理深度和延迟之间找到平衡点,平衡智能与token成本,适配多数编码/Agent任务。
第二,新增自适应思考模式,替代固定预算长思考,模型自主决定思考深度,简单查询快速响应,复杂步骤重点投入。
第三,任务预算(公开beta),开发者可引导token消耗,优化长任务资源分配。
第四,Claude Code新增/ultrareview命令,可创建专属审查会话,标记细微错误与设计问题。
想做一个靠谱的模型:首发防护,记忆增强
Anthropic官方表示,Opus 4.7的网络安全能力不如Mythos Preview。
不过这是他们刻意为之。
这种“自我设限”背后,是Anthropic对AI安全的一贯坚持。
自2021年成立以来,这家公司花了四年时间精心打造自己的声誉,试图对外塑造一个“比OpenAI等竞争对手更注重安全和负责任AI部署”的声誉。
在Mythos Preview引发业界对强大AI模型安全风险的热议之后,Opus 4.7被设计成一道缓冲带。
具体来说,Anthropic在训练中尝试了差异化降低Opus 4.7的网络能力,让模型在面对网络安全相关任务时表现出更谨慎的行为模式。
与此同时,官方发布了自动检测和阻止高风险网络安全请求的防护措施,这些safeguards能够自动识别并拦截表明prohibited或high-risk网络安全用途的请求。
[加西网正招聘多名全职sales 待遇优]
还没人说话啊,我想来说几句
实际落地场景几乎全覆盖,能直接识别完整Figma设计稿、1080p终端截图(含灰色小字),精准解析复杂技术架构图、财报图表,在计算机使用(Computer Use)场景中,可清晰读取高密度UI元素,视觉处理能力近乎满分。
换句话说,化学结构解析、复杂技术图表识别、像素级精确的UI元素定位,这些过去需要专门模型的任务,现在可以直接用Opus 4.7一个模搞定。
Figma听了立刻股价大跌,怎一个惨字了得。
指令遵循与推理:更可控,更可靠
Opus 4.7在指令遵循上也有长足进步。
它不再试图猜测用户的真实意图,而是严格按照字面执行。
这次升级的核心优势在于严苛的字面执行,如果用户要求 “不要用 TypeScript” ,模型就坚决不用;用户要求 “输出 JSON” ,得到的输出就一定没有任何额外前缀。
这种变化对老用户来说可能需要适应(同时旧提示词易出现意外结果,需重新校准),但对需要精确控制的场景来说是福音。
在推理方面,100万token长上下文场景表现亮眼,BFS任务得分58.6%*(Opus 4.6成绩为41.2%),复杂推理中逻辑连贯性显著提升。
Agent能力增强:为Agent而生的版本
如果说之前的Claude是为对话而生,Opus 4.7则是为Agent而生。
这体现在几个方面。
首先总体来说,Opus 4.7的核心Agent能力有了全方位提升。
多家AI知名企业拿出了实际使用效果相关数据——Notion多步骤工作流成功率提升14%,工具调用错误率降至1/3;Vending-Bench 2长期经营模拟中,最终余额达10937美元(Opus 4.6剩了8018美元),长周期决策更稳健;Genspark场景下,抗死循环、一致性、错误恢复三大生产级特性拉满。
同时具备文件系统记忆,跨多会话可靠记住关键信息,新任务可减少40%重复上下文输入。
Cognition的CEO Scott Wu的描述更形象:
Opus 4.7在Devin中将长周期自主性提升到新水平。
它能连贯工作数小时,突破难题而不是放弃,解锁了我们以前无法可靠运行的一类深度调查工作。
与此同时,Opus 4.7还为开发者提供了许多令人狂喜的Agent相关四件套。
第一,新增xhigh推理等级,作为默认等级介于high与max之间。
这给了开发者更精细的控制权,可以在推理深度和延迟之间找到平衡点,平衡智能与token成本,适配多数编码/Agent任务。
第二,新增自适应思考模式,替代固定预算长思考,模型自主决定思考深度,简单查询快速响应,复杂步骤重点投入。
第三,任务预算(公开beta),开发者可引导token消耗,优化长任务资源分配。
第四,Claude Code新增/ultrareview命令,可创建专属审查会话,标记细微错误与设计问题。
想做一个靠谱的模型:首发防护,记忆增强
Anthropic官方表示,Opus 4.7的网络安全能力不如Mythos Preview。
不过这是他们刻意为之。
这种“自我设限”背后,是Anthropic对AI安全的一贯坚持。
自2021年成立以来,这家公司花了四年时间精心打造自己的声誉,试图对外塑造一个“比OpenAI等竞争对手更注重安全和负责任AI部署”的声誉。
在Mythos Preview引发业界对强大AI模型安全风险的热议之后,Opus 4.7被设计成一道缓冲带。
具体来说,Anthropic在训练中尝试了差异化降低Opus 4.7的网络能力,让模型在面对网络安全相关任务时表现出更谨慎的行为模式。
与此同时,官方发布了自动检测和阻止高风险网络安全请求的防护措施,这些safeguards能够自动识别并拦截表明prohibited或high-risk网络安全用途的请求。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
网民熬夜玩儿疯,Claude Opus 4.7来了