AI工具進化分水嶺:首個連續上班7小時的AI來了

2025-05-23 | 來源: AI范兒 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

在OpenAI 和 Google 接連發布大模型後，Anthropic終於也亮出了底牌。

5月22日，Anthropic在其首屆開發者大會上發布了全新壹代的Claude 4系列模型，包括旗艦級的 Opus 4、高性價比的 Sonnet 4，以及效率優先的 Haiku 4，同時推出了 Claude Code 開發工具包。它們背後的目標不再只是“更強大”，而是讓 AI 成為真正“能幹事”的工作搭檔。

而這壹次，Claude 不再只是對話模型，它開始接近壹個具備自主任務執行能力、跨模態推理能力和高安全保障的 AI 系統雛形。

Claude Opus 4：不僅是更強，而是更“能幹”

Claude Opus 4 是 Anthropic 目前能力最強的模型，甚至在多個維度上超越了 OpenAI Codex-1、o3 和 Gemini 2.5 Pro。

首先是推理深度和持續性。Anthropic 在內部測試中發現，Opus 4 可以在無需人類插手的情況下，連續執行壹項編程任務超過 7小時，這對於構建長期自治智能體來說是裡程碑式的進展。對比之下，GPT-4 通常只能持續幾拾分鍾。

其次是編碼能力。Opus 4 在代碼基准測試 SWE-bench 中得分高達 72.5%，超過 OpenAI Codex-1（72.1%）和 Gemini 2.5 Pro（63.2%），成為目前已公開測試中世界最強的代碼大模型。不僅能寫函數、改邏輯，它甚至可以理解跨文件結構，進行結構性重構，具備類似“工程意識”的表現。

圖：Claude 4 模型在 SWE-bench Verified（真實軟件工程任務性能基准測試）上領先

Claude Sonnet 4：高性價比版本，不輸旗艦

如果說 Opus 4 是為了大企業和重度用戶准備的，那 Sonnet 4 則是 Anthropic 為開發者和中小企業提供的“黃金版本”。

Sonnet 4 的 SWE-bench 編碼得分達到 72.7%，甚至略高於 Opus。更重要的是，它在響應速度和成本上做了大量優化，非常適合用於部署到產品工作流中。對於大多數開發者來說，它幾乎能滿足你 90% 的需求。

圖：Claude 4 模型在編碼、推理、多模態能力和代理任務方面表現出色。

Claude 的模型也更加“聽話”了。無論是長指令、結構化輸入，還是格式化輸出，Claude 4 系列在遵循復雜指令方面明顯優於上壹代模型，讓它更像壹個可靠的助理，而非只會答題的聊天機器人。

Claude Code 工具鏈：讓 AI 真正進開發流程

為了配合 Claude 模型在工程場景的使用，Anthropic 還推出了完整的 Claude Code 工具鏈，包括 CLI 工具、VS Code 插件、GitHub 集成，未來還將開放 JetBrains 插件。

[物價飛漲的時候這樣省錢購物很爽] 無評論不新聞，發表壹下您的意見吧

分享:

上壹頁12 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

AI工具進化分水嶺:首個連續上班7小時的AI來了

意見