史上首次!AI vs 人類工作能力 結果對人類不太妙

巴克萊分析顯示,頂尖AI模型已接近人類專家水平,Claude Opus 4.1獲得47.6%勝率領先。AI在零售貿易等領域已超越人類,在軟件開發等職業表現優異。更令人震驚的是,AI能力在15個月內提升3倍,呈線性增長趨勢。預測未來12-24個月內AI將在大多數工作任務上全面超越人類專家。


OpenAI最新發布的GDPval-v0評測工具首次量化了AI在執行具有經濟價值工作任務方面的能力,結果顯示AI正迅速追趕甚至逼近人類專業人員水平。巴克萊表示,最先進的AI模型已在諸多職業任務中達到與人類專家相當的能力,並且這種能力提升速度正在加快。

此前文章寫道,OpenAI最新發布了壹款名為GDPval-v0的全新評估工具,涵蓋美國GDP占比較大的九個商業領域中44個職業的約1300項具體工作任務,從法律文書到工程藍圖再到護理計劃等真實工作交付成果。

結果顯示,當前最頂尖的AI模型在執行許多職業任務時,其能力已與人類專業人士相當,並且這種能力的提升速度正在加快。10月5日,據硬AI消息,巴克萊在最新研究報告中稱,Anthropic的Claude Opus 4.1在與人類專家對比中取得47.6%的"勝利或平局"率,位居榜首。

巴克萊分析師認為,AI模型的"勝率"在過去15個月中線性提升約4倍,預計在未來12-24個月內AI將在大多數工作相關任務上超越人類。分析認為,這壹突破為評估AI投資回報率提供了關鍵數據支撐。

評測標准創新突破:模擬真實工作復雜性

據巴克萊研究報告,GDPval基准測試的核心創新在於其真實性和復雜性。

該評測由平均擁有超過14年行業經驗的資深專業人士設計,涵蓋科技服務、金融保險、醫療保健、信息業、制造業等行業的1230個專業任務。

與傳統基准測試不同,GDPval的任務並非簡單文本問答,而是包含參考文件和上下文的復雜場景,要求AI交付多樣化成果,包括文檔、幻燈片、圖表和電子表格等。巴克萊指出,這種設計更貼近現實工作環境的復雜性。

評測采用盲測方式,由行業專家對AI和人類生成的工作成果進行排名,從難度、代表性、完成時間和整體質量等維度進行綜合評估。

AI性能接近人類專家水平

巴克萊分析顯示,當前最先進的AI模型在多個領域已接近或達到人類專家水平。Claude Opus 4.1以47.6%的勝率領先,GPT-5-high緊隨其後,達到38.8%,o3 high為34.1%。



從行業維度看,AI在零售貿易(56%勝率)、批發貿易(53%)和政府部門(52%)的表現超過人類專家,但在信息技術行業表現相對較弱(39%)。


職業層面上,AI在櫃台和租賃文員(80%)、運輸接收和庫存文員(76%)以及軟件開發人員(70%)任務中表現最佳,而在工業工程師(17%)和影視編輯(17%)任務中表現較差。

各模型表現出不同特點:Claude Opus 4.1在美學表現(格式和布局)方面表現出色,GPT-5在遵循指令和執行准確計算方面最為精准。

能力提升速度驚人

巴克萊報告特別強調了AI能力提升的速度。

研報稱,OpenAI模型在GDPval測試中的表現在15個月內提升了3倍以上,這種線性增長趨勢表明AI很可能在短期內全面超越人類專家。

對GPT-5的失誤分析顯示,盡管該模型仍會犯壹些災難性錯誤(2.7%),但47.7%的失誤被歸類為"可接受但不佳",22.9%的情況下模型表現甚至優於人類。



[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
上壹頁12下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    400年後,人類終於破解土星之謎(圖 人類可能是宇宙中最早的智慧生物
    住房負擔能力正改善 但溫村仍最糟 AI成「新核彈」?《黃仁勳傳》作者警告:恐毀滅人類
    他語出驚人:"ICE的特工們正在做上帝的工作" 美國現代史上首次!白宮"管家"宣布永久性裁員
    諾獎結果遭駭外泄?賭盤突飆7成 有人暴賺近200萬 美國想要的 中國沒有能力答應(圖  (1條評論)
    公明黨突然退出執政聯盟 日史上首位女首相恐難產 澤連斯基談加沙停火:哈馬斯表現出了談判能力
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站