ChatGPT Agent口碑两极化,Manus隔空对战

▲电子表格任务（来源：OpenAI）

在投行分析师任务中，Agent完成复杂财务建模的准确率达到71.3%，大幅领先o3（48.6%）和DeepResearch（55.9%）。

▲内部投资银行分析师任务评估（来源：OpenAI）

WebArena测试Agent在网页交互任务的操作能力，ChatGPT Agent准确率达到65.4%，超越o3和CUA模型，接近人类水平（78.2%）。

▲WebArena网页交互基准（58.1%）（来源：OpenAI）

BrowseComp用于评估Agent对长尾信息检索任务的处理能力，ChatGPT Agent准确率达到68.9%，比DeepResearch高出17.4个百分点。

▲复杂网页信息检索任务BrowseComp（来源：OpenAI）

ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任务中表现亮眼，数据分析、表格编辑和网页检索准确率大幅提升，部分任务超越人类水平。各类型任务相较于o3模型，Agent都实现了从10%到30%不同程度的提升。

结语：Agent潮起，OpenAI稳步迈进

ChatGPT Agent的发布再次证明Agent赛道正在加速进化。整合多工具、接入个人数据、具备基础执行力，正逐渐成为Agent产品进化的主流方向，但距离真正行业普及仍有不小距离。

这次，OpenAI并没有交付一个“划时代”版本，仅在个人助理和办公场景迈出了一步稳健但平淡的更新。

对用户来说，ChatGPT Agent值得体验，它确实让一部分琐碎事务可以交给AI代劳。但要说AI“重塑工作流”，显然还为时尚早。OpenAI还在路上，Agent也还在半成品阶段。它是一场值得肯定的进步，但并不是一场值得兴奋的飞跃。

[物价飞涨的时候这样省钱购物很爽] 无评论不新闻，发表一下您的意见吧

分享:

Prev Page 1 ...4 5 67Next Page

Note:

新闻来源于其它媒体，内容不代表本站立场！

_VIEW_NEWS_FULL

延伸阅读

美国人是怎么用ChatGPT的?OpenAI报告大揭秘	别只问ChatGPT 四大热门AI聊天机器人一次看
当人类开始模仿像ChatGPT那样说话	ChatGPT帮减重!她每天做这事 1个月狂瘦7公斤
林加德社媒调侃与ChatGPT恋爱,自称找到唯一真爱	UCLA学生毕业礼兴奋自爆"ChatGPT帮我毕业"惹议
MIT招募大学生实验: ChatGPT用多了会变傻	ChatGPT惊现诡异"回复" 女子追问后更震惊…
ChatGPT全球宕机把人都整不会了 (2条评论)	抛弃近千名员工并用ChatGPT后,这家公司翻车了

comments

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

ChatGPT Agent口碑两极化,Manus隔空对战

comments