ChatGPT Agent口碑兩極化,Manus隔空對戰

新聞

2025-07-19 | 來源: 智東西 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

▲電子表格任務（來源：OpenAI）

在投行分析師任務中，Agent完成復雜財務建模的准確率達到71.3%，大幅領先o3（48.6%）和DeepResearch（55.9%）。

▲內部投資銀行分析師任務評估（來源：OpenAI）

WebArena測試Agent在網頁交互任務的操作能力，ChatGPT Agent准確率達到65.4%，超越o3和CUA模型，接近人類水平（78.2%）。

▲WebArena網頁交互基准（58.1%）（來源：OpenAI）

BrowseComp用於評估Agent對長尾信息檢索任務的處理能力，ChatGPT Agent准確率達到68.9%，比DeepResearch高出17.4個百分點。

▲復雜網頁信息檢索任務BrowseComp（來源：OpenAI）

ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任務中表現亮眼，數據分析、表格編輯和網頁檢索准確率大幅提升，部分任務超越人類水平。各類型任務相較於o3模型，Agent都實現了從10%到30%不同程度的提升。

結語：Agent潮起，OpenAI穩步邁進

ChatGPT Agent的發布再次證明Agent賽道正在加速進化。整合多工具、接入個人數據、具備基礎執行力，正逐漸成為Agent產品進化的主流方向，但距離真正行業普及仍有不小距離。

這次，OpenAI並沒有交付壹個“劃時代”版本，僅在個人助理和辦公場景邁出了壹步穩健但平淡的更新。

對用戶來說，ChatGPT Agent值得體驗，它確實讓壹部分瑣碎事務可以交給AI代勞。但要說AI“重塑工作流”，顯然還為時尚早。OpenAI還在路上，Agent也還在半成品階段。它是壹場值得肯定的進步，但並不是壹場值得興奮的飛躍。

[物價飛漲的時候這樣省錢購物很爽] 這條新聞還沒有人評論喔，等著您的高見呢

分享:

上壹頁 1 ...4 5 67下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

ChatGPT Agent口碑兩極化,Manus隔空對戰

意見