ChatGPT Agent口碑兩極化,Manus隔空對戰
▲(圖源:X平台)
Agent在執行流程上已經具備高效率,但在數據判斷和邏輯把控上仍然離不開人類監督。
從跑分和社區反饋來看,ChatGPT Agent擅長處理指令明確、路徑清晰的任務,比如生成婚禮准備清單或根據財務數據制作PPT,在這類標准化流程中,Agent能夠高效執行,顯著節省人工操作。
但遇到模糊指令或需要開放式判斷的任務,比如整理行業隱性趨勢或挖掘未被報道的新聞線索時,Agent往往難以給出有效結果,容易陷入“找不到”或“請明確需求”的反復循環。
肆、跑分成績亮眼:擅長流程跑通,難在開放推理
在數據測評上,Agent模式在人文學科推理、金融分析、網頁交互和電子表格肆大維度上對o3有不同程度領先,最高實現翻倍提升。
ChatGPT Agent在“人類的最後考試”(Humanity’s Last Exam)評估中取得41.6%的最高分,相比o3無工具模式(20.3%)實現翻倍提升,在跨學科專家級問題上展現了推理與工具調用能力。

▲Humanity’s Last Exam(來源:OpenAI)
DSBench聚焦數據分析類實際任務,Agent在數據分析子任務中准確率達到87.9%,顯著高於o3(64.1%),首次超越人類參考水平。在DSBench的數據建模子任務中,Agent准確率達到85.5%,優於o3(77.1%)和GPT-4o(45.5%),接近人類表現。

▲DSBench數據分析任務與DSBench數據建模任務(來源:OpenAI)
SpreadsheetBench測試Agent對電子表格的編輯操作,ChatGPT Agent在直接訪問.xlsx文件時,准確率提升至45.5%,顯著優於Copilot in Excel(20.0%),但與人類水平(71.3%)存在較大差距。

[物價飛漲的時候 這樣省錢購物很爽]
這條新聞還沒有人評論喔,等著您的高見呢
Agent在執行流程上已經具備高效率,但在數據判斷和邏輯把控上仍然離不開人類監督。
從跑分和社區反饋來看,ChatGPT Agent擅長處理指令明確、路徑清晰的任務,比如生成婚禮准備清單或根據財務數據制作PPT,在這類標准化流程中,Agent能夠高效執行,顯著節省人工操作。
但遇到模糊指令或需要開放式判斷的任務,比如整理行業隱性趨勢或挖掘未被報道的新聞線索時,Agent往往難以給出有效結果,容易陷入“找不到”或“請明確需求”的反復循環。
肆、跑分成績亮眼:擅長流程跑通,難在開放推理
在數據測評上,Agent模式在人文學科推理、金融分析、網頁交互和電子表格肆大維度上對o3有不同程度領先,最高實現翻倍提升。
ChatGPT Agent在“人類的最後考試”(Humanity’s Last Exam)評估中取得41.6%的最高分,相比o3無工具模式(20.3%)實現翻倍提升,在跨學科專家級問題上展現了推理與工具調用能力。

▲Humanity’s Last Exam(來源:OpenAI)
DSBench聚焦數據分析類實際任務,Agent在數據分析子任務中准確率達到87.9%,顯著高於o3(64.1%),首次超越人類參考水平。在DSBench的數據建模子任務中,Agent准確率達到85.5%,優於o3(77.1%)和GPT-4o(45.5%),接近人類表現。

▲DSBench數據分析任務與DSBench數據建模任務(來源:OpenAI)
SpreadsheetBench測試Agent對電子表格的編輯操作,ChatGPT Agent在直接訪問.xlsx文件時,准確率提升至45.5%,顯著優於Copilot in Excel(20.0%),但與人類水平(71.3%)存在較大差距。

[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:
ChatGPT Agent口碑兩極化,Manus隔空對戰