Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_308e2df3f4232ad08e1c5ca6c7314ec4, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
ChatGPT Agent口碑兩極化,Manus隔空對戰 | 溫哥華教育中心
   

ChatGPT Agent口碑兩極化,Manus隔空對戰

▲(圖源:X平台)


Agent在執行流程上已經具備高效率,但在數據判斷和邏輯把控上仍然離不開人類監督。

從跑分和社區反饋來看,ChatGPT Agent擅長處理指令明確、路徑清晰的任務,比如生成婚禮准備清單或根據財務數據制作PPT,在這類標准化流程中,Agent能夠高效執行,顯著節省人工操作。

但遇到模糊指令或需要開放式判斷的任務,比如整理行業隱性趨勢或挖掘未被報道的新聞線索時,Agent往往難以給出有效結果,容易陷入“找不到”或“請明確需求”的反復循環。

肆、跑分成績亮眼:擅長流程跑通,難在開放推理

在數據測評上,Agent模式在人文學科推理、金融分析、網頁交互和電子表格肆大維度上對o3有不同程度領先,最高實現翻倍提升。

ChatGPT Agent在“人類的最後考試”(Humanity’s Last Exam)評估中取得41.6%的最高分,相比o3無工具模式(20.3%)實現翻倍提升,在跨學科專家級問題上展現了推理與工具調用能力。



▲Humanity’s Last Exam(來源:OpenAI)

DSBench聚焦數據分析類實際任務,Agent在數據分析子任務中准確率達到87.9%,顯著高於o3(64.1%),首次超越人類參考水平。在DSBench的數據建模子任務中,Agent准確率達到85.5%,優於o3(77.1%)和GPT-4o(45.5%),接近人類表現。




▲DSBench數據分析任務與DSBench數據建模任務(來源:OpenAI)

SpreadsheetBench測試Agent對電子表格的編輯操作,ChatGPT Agent在直接訪問.xlsx文件時,准確率提升至45.5%,顯著優於Copilot in Excel(20.0%),但與人類水平(71.3%)存在較大差距。



[物價飛漲的時候 這樣省錢購物很爽]
這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站