ChatGPT Agent口碑兩極化,Manus隔空對戰

2025-07-19 | 來源: 智東西 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

▲（圖源：X平台）

Agent在執行流程上已經具備高效率，但在數據判斷和邏輯把控上仍然離不開人類監督。

從跑分和社區反饋來看，ChatGPT Agent擅長處理指令明確、路徑清晰的任務，比如生成婚禮准備清單或根據財務數據制作PPT，在這類標准化流程中，Agent能夠高效執行，顯著節省人工操作。

但遇到模糊指令或需要開放式判斷的任務，比如整理行業隱性趨勢或挖掘未被報道的新聞線索時，Agent往往難以給出有效結果，容易陷入“找不到”或“請明確需求”的反復循環。

肆、跑分成績亮眼：擅長流程跑通，難在開放推理

在數據測評上，Agent模式在人文學科推理、金融分析、網頁交互和電子表格肆大維度上對o3有不同程度領先，最高實現翻倍提升。

ChatGPT Agent在“人類的最後考試”（Humanity’s Last Exam）評估中取得41.6%的最高分，相比o3無工具模式（20.3%）實現翻倍提升，在跨學科專家級問題上展現了推理與工具調用能力。

▲Humanity’s Last Exam（來源：OpenAI）

DSBench聚焦數據分析類實際任務，Agent在數據分析子任務中准確率達到87.9%，顯著高於o3（64.1%），首次超越人類參考水平。在DSBench的數據建模子任務中，Agent准確率達到85.5%，優於o3（77.1%）和GPT-4o（45.5%），接近人類表現。

▲DSBench數據分析任務與DSBench數據建模任務（來源：OpenAI）

SpreadsheetBench測試Agent對電子表格的編輯操作，ChatGPT Agent在直接訪問.xlsx文件時，准確率提升至45.5%，顯著優於Copilot in Excel（20.0%），但與人類水平（71.3%）存在較大差距。

[物價飛漲的時候這樣省錢購物很爽] 這條新聞還沒有人評論喔，等著您的高見呢

分享:

上壹頁 1 ...3 4 567 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

ChatGPT Agent口碑兩極化,Manus隔空對戰

意見