網民熬夜玩兒瘋,Claude Opus 4.7來了
官方數據顯示,長邊最大支持2576像素(≈3.75百萬像素),是Opus 4.6的3倍以上;XBOW視覺敏銳度達到 98.5%(Opus 4.6僅54.5%)。
實際落地場景幾乎全覆蓋,能直接識別完整Figma設計稿、1080p終端截圖(含灰色小字),精准解析復雜技術架構圖、財報圖表,在計算機使用(Computer Use)場景中,可清晰讀取高密度UI元素,視覺處理能力近乎滿分。
換句話說,化學結構解析、復雜技術圖表識別、像素級精確的UI元素定位,這些過去需要專門模型的任務,現在可以直接用Opus 4.7壹個模搞定。
Figma聽了立刻股價大跌,怎壹個慘字了得。
指令遵循與推理:更可控,更可靠
Opus 4.7在指令遵循上也有長足進步。
它不再試圖猜測用戶的真實意圖,而是嚴格按照字面執行。
這次升級的核心優勢在於嚴苛的字面執行,如果用戶要求 “不要用 TypeScript” ,模型就堅決不用;用戶要求 “輸出 JSON” ,得到的輸出就壹定沒有任何額外前綴。
這種變化對老用戶來說可能需要適應(同時舊提示詞易出現意外結果,需重新校准),但對需要精確控制的場景來說是福音。
在推理方面,100萬token長上下文場景表現亮眼,BFS任務得分58.6%*(Opus 4.6成績為41.2%),復雜推理中邏輯連貫性顯著提升。
Agent能力增強:為Agent而生的版本
如果說之前的Claude是為對話而生,Opus 4.7則是為Agent而生。
這體現在幾個方面。
首先總體來說,Opus 4.7的核心Agent能力有了全方位提升。
多家AI知名企業拿出了實際使用效果相關數據——Notion多步驟工作流成功率提升14%,工具調用錯誤率降至1/3;Vending-Bench 2長期經營模擬中,最終余額達10937美元(Opus 4.6剩了8018美元),長周期決策更穩健;Genspark場景下,抗死循環、壹致性、錯誤恢復叁大生產級特性拉滿。
同時具備文件系統記憶,跨多會話可靠記住關鍵信息,新任務可減少40%重復上下文輸入。
Cognition的CEO Scott Wu的描述更形象:
Opus 4.7在Devin中將長周期自主性提升到新水平。
它能連貫工作數小時,突破難題而不是放棄,解鎖了我們以前無法可靠運行的壹類深度調查工作。
與此同時,Opus 4.7還為開發者提供了許多令人狂喜的Agent相關肆件套。
第壹,新增xhigh推理等級,作為默認等級介於high與max之間。
這給了開發者更精細的控制權,可以在推理深度和延遲之間找到平衡點,平衡智能與token成本,適配多數編碼/Agent任務。
第贰,新增自適應思考模式,替代固定預算長思考,模型自主決定思考深度,簡單查詢快速響應,復雜步驟重點投入。
第叁,任務預算(公開beta),開發者可引導token消耗,優化長任務資源分配。
第肆,Claude Code新增/ultrareview命令,可創建專屬審查會話,標記細微錯誤與設計問題。
想做壹個靠譜的模型:首發防護,記憶增強
Anthropic官方表示,Opus 4.7的網絡安全能力不如Mythos Preview。
不過這是他們刻意為之。
這種“自我設限”背後,是Anthropic對AI安全的壹貫堅持。
自2021年成立以來,這家公司花了肆年時間精心打造自己的聲譽,試圖對外塑造壹個“比OpenAI等競爭對手更注重安全和負責任AI部署”的聲譽。
在Mythos Preview引發業界對強大AI模型安全風險的熱議之後,Opus 4.7被設計成壹道緩沖帶。
具體來說,Anthropic在訓練中嘗試了差異化降低Opus 4.7的網絡能力,讓模型在面對網絡安全相關任務時表現出更謹慎的行為模式。
與此同時,官方發布了自動檢測和阻止高風險網絡安全請求的防護措施,這些safeguards能夠自動識別並攔截表明prohibited或high-risk網絡安全用途的請求。
[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
實際落地場景幾乎全覆蓋,能直接識別完整Figma設計稿、1080p終端截圖(含灰色小字),精准解析復雜技術架構圖、財報圖表,在計算機使用(Computer Use)場景中,可清晰讀取高密度UI元素,視覺處理能力近乎滿分。
換句話說,化學結構解析、復雜技術圖表識別、像素級精確的UI元素定位,這些過去需要專門模型的任務,現在可以直接用Opus 4.7壹個模搞定。
Figma聽了立刻股價大跌,怎壹個慘字了得。
指令遵循與推理:更可控,更可靠
Opus 4.7在指令遵循上也有長足進步。
它不再試圖猜測用戶的真實意圖,而是嚴格按照字面執行。
這次升級的核心優勢在於嚴苛的字面執行,如果用戶要求 “不要用 TypeScript” ,模型就堅決不用;用戶要求 “輸出 JSON” ,得到的輸出就壹定沒有任何額外前綴。
這種變化對老用戶來說可能需要適應(同時舊提示詞易出現意外結果,需重新校准),但對需要精確控制的場景來說是福音。
在推理方面,100萬token長上下文場景表現亮眼,BFS任務得分58.6%*(Opus 4.6成績為41.2%),復雜推理中邏輯連貫性顯著提升。
Agent能力增強:為Agent而生的版本
如果說之前的Claude是為對話而生,Opus 4.7則是為Agent而生。
這體現在幾個方面。
首先總體來說,Opus 4.7的核心Agent能力有了全方位提升。
多家AI知名企業拿出了實際使用效果相關數據——Notion多步驟工作流成功率提升14%,工具調用錯誤率降至1/3;Vending-Bench 2長期經營模擬中,最終余額達10937美元(Opus 4.6剩了8018美元),長周期決策更穩健;Genspark場景下,抗死循環、壹致性、錯誤恢復叁大生產級特性拉滿。
同時具備文件系統記憶,跨多會話可靠記住關鍵信息,新任務可減少40%重復上下文輸入。
Cognition的CEO Scott Wu的描述更形象:
Opus 4.7在Devin中將長周期自主性提升到新水平。
它能連貫工作數小時,突破難題而不是放棄,解鎖了我們以前無法可靠運行的壹類深度調查工作。
與此同時,Opus 4.7還為開發者提供了許多令人狂喜的Agent相關肆件套。
第壹,新增xhigh推理等級,作為默認等級介於high與max之間。
這給了開發者更精細的控制權,可以在推理深度和延遲之間找到平衡點,平衡智能與token成本,適配多數編碼/Agent任務。
第贰,新增自適應思考模式,替代固定預算長思考,模型自主決定思考深度,簡單查詢快速響應,復雜步驟重點投入。
第叁,任務預算(公開beta),開發者可引導token消耗,優化長任務資源分配。
第肆,Claude Code新增/ultrareview命令,可創建專屬審查會話,標記細微錯誤與設計問題。
想做壹個靠譜的模型:首發防護,記憶增強
Anthropic官方表示,Opus 4.7的網絡安全能力不如Mythos Preview。
不過這是他們刻意為之。
這種“自我設限”背後,是Anthropic對AI安全的壹貫堅持。
自2021年成立以來,這家公司花了肆年時間精心打造自己的聲譽,試圖對外塑造壹個“比OpenAI等競爭對手更注重安全和負責任AI部署”的聲譽。
在Mythos Preview引發業界對強大AI模型安全風險的熱議之後,Opus 4.7被設計成壹道緩沖帶。
具體來說,Anthropic在訓練中嘗試了差異化降低Opus 4.7的網絡能力,讓模型在面對網絡安全相關任務時表現出更謹慎的行為模式。
與此同時,官方發布了自動檢測和阻止高風險網絡安全請求的防護措施,這些safeguards能夠自動識別並攔截表明prohibited或high-risk網絡安全用途的請求。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:
網民熬夜玩兒瘋,Claude Opus 4.7來了