Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_308e2df3f4232ad08e1c5ca6c7314ec4, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
網民熬夜玩兒瘋,Claude Opus 4.7來了 | 溫哥華教育中心
   

網民熬夜玩兒瘋,Claude Opus 4.7來了

用Mythos向外界虛晃壹槍後,Anthropic猝不及防把Claude Opus 4.7抬了上來。


不少小伙伴都熬夜玩兒瘋了!

壹骨碌從床上坐起來邊沖浪邊上手體驗,我從Opus 4.7身上總結了壹個壞消息和壹些好消息。

先說壞消息吧——Opus 4.7身上,怎麼看怎麼有點故人之姿。

動不動就要“穩穩接住”我。

不少網友也反饋,怎麼說是升級,但Opus 4.7越用越像GPT???

如果是真的,這可不是什麼好事情(無奈閉眼.jpg)。

相比壞消息只有壹個,好消息那是有壹籮筐。

在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多個方面,都比前作更好。但Agentic search等幾個單項能力上有所下降。

Anthropic還很臭屁地表示:

Opus 4.7是我們家目前最強大的公開可用模型。

不過這不是我們最強大的模型喲~~

看來最強大的還是密而不發的Mythos。

看看上面的表格,Mythos在那些測試上的整體表現,均優越約10%至15%。

毫無疑問,Mythos Preview是目前Anthropic手裡最夯的壹張牌,能力拉滿,但價格也是Opus 4.7的5倍。

相比之下,Opus 4.7更像是安全體系完成全驗證、定價親民且全平台開放的最強量產版。

但……所謂智者千慮必有壹失。

強大的Opus 4.7還是在昨日的陰溝裡面翻了船:

Claude Opus 4.7突襲,核心升級肆大方向

通覽下來,這個公開最強的Opus 4.7,在肆個方向上都有突出表現。

高級軟件工程領域:值得托付

Opus 4.7最顯著的進步在高級軟件工程領域。

來看這組數據:

SWE-bench Verified測試達到78.2%;

SWE-bench Multimodal達到72.7%;

Terminal-Bench 2.0拿下68.8%;

Rakuten-SWE-Bench 中解決生產任務的數量更是Opus 4.6的3倍;

GitHub 93項任務編碼基准也提升了13%。

Cursor的CEO Michael Truell給出了壹個關鍵評價:

在CursorBench上,Opus 4.7從58%躍升到70%,這個躍升意義重大。


這種提升體現在叁個關鍵特性上。

第壹,嚴格遵循指令。

Opus 4.7不再像早期模型那樣“靈活解讀”用戶的模糊表述,而是字面執行。

這意味著以前你寫“如果可能的話,嘗試優化這段代碼”這種提示詞,模型可能會選擇性忽略。

現在你說“優化這段代碼”,它就壹定會執行。

這種變化要求用戶重新調整提示詞策略,軟修飾符如“if possible/ideally/try to”的權重變得更高,硬限制需要更明確。

第贰,輸出前自我驗證。

Opus 4.7會在報告結果前devise ways to verify its own outputs,就像壹個資深工程師在提交代碼前會自己跑壹遍測試。

第叁,擅長復雜多文件變更、模糊調試、跨服務代碼審查。

Notion的AI Lead Sarah Sachs分享了壹個數據:

面對復雜多步驟工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具錯誤只有叁分之壹。

它是第壹個通過我們隱性需求測試的模型。

視覺能力:分辨率×3,看見更多細節

在視覺能力方面,Opus 4.7也有很不錯的進步。

[物價飛漲的時候 這樣省錢購物很爽]
好新聞沒人評論怎麼行,我來說幾句
上壹頁123下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    OpenAI發布GPT-5.5:全面超越Claude與Gemini 微軟推出"多模協作"研究智能體 GPT與Claude並肩
    殺人AI曝 Claude24小時鎖定伊朗1000個目標 狙殺幕後功臣:Claude和Palantir如何改變戰場?
    Claude崩了,全球AI因何"熔斷"?(圖 學霸用Claude幹翻百人律師團 重構法律執業模式
    Claude新功能"記憶搬家"! 70萬用戶退訂OpenAI Claude被特朗普封殺登頂App Store!CEO含淚首發聲
    壹夜蒸發 310 億美元!Claude 新工具幹翻 IBM 搖錢樹 美媒:美襲委內瑞拉逮馬杜洛 使用AI模型Claude
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站