ChatGPT Agent口碑两极化,Manus隔空对战
在投行分析师任务中,Agent完成复杂财务建模的准确率达到71.3%,大幅领先o3(48.6%)和DeepResearch(55.9%)。

▲内部投资银行分析师任务评估(来源:OpenAI)
WebArena测试Agent在网页交互任务的操作能力,ChatGPT Agent准确率达到65.4%,超越o3和CUA模型,接近人类水平(78.2%)。

▲WebArena网页交互基准(58.1%)(来源:OpenAI)
BrowseComp用于评估Agent对长尾信息检索任务的处理能力,ChatGPT Agent准确率达到68.9%,比DeepResearch高出17.4个百分点。

▲复杂网页信息检索任务BrowseComp(来源:OpenAI)
ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任务中表现亮眼,数据分析、表格编辑和网页检索准确率大幅提升,部分任务超越人类水平。各类型任务相较于o3模型,Agent都实现了从10%到30%不同程度的提升。
结语:Agent潮起,OpenAI稳步迈进
ChatGPT Agent的发布再次证明Agent赛道正在加速进化。整合多工具、接入个人数据、具备基础执行力,正逐渐成为Agent产品进化的主流方向,但距离真正行业普及仍有不小距离。
这次,OpenAI并没有交付一个“划时代”版本,仅在个人助理和办公场景迈出了一步稳健但平淡的更新。
对用户来说,ChatGPT Agent值得体验,它确实让一部分琐碎事务可以交给AI代劳。但要说AI“重塑工作流”,显然还为时尚早。OpenAI还在路上,Agent也还在半成品阶段。它是一场值得肯定的进步,但并不是一场值得兴奋的飞跃。
[物价飞涨的时候 这样省钱购物很爽]
分享: |
Note: | _VIEW_NEWS_FULL |
延伸阅读 |
推荐: