[留學生] 中留學生論文登Nature 大模型對人類可靠性降低

相比較早的LLMs, 最新的LLMs大幅度地提高了許多錯誤或壹本正經的胡說八道的答案,而不是謹慎地避開超出它們能力范圍之外的任務。


這也導致壹個諷刺的現象:在壹些benchmarks中,新的LLMs錯誤率提升速度甚至遠超於准確率的提升(doge)。

相比較早的LLMs, 最新的LLMs大幅度地提高了許多錯誤或壹本正經的胡說八道的答案,而不是謹慎地避開超出它們能力范圍之外的任務。

這也導致壹個諷刺的現象:在壹些benchmarks中,新的LLMs錯誤率提升速度甚至遠超於准確率的提升(doge)。



壹般來說,人類面對越難的任務,越有可能含糊其辭。

但LLMs的實際表現卻截然不同,研究顯示, 它們的規避行為與困難度並無明顯關聯。

這容易導致用戶最初過度依賴LLMs來完成他們不擅長的任務,但讓他們從長遠來看感到失望。

後果就是,人類還需要驗證模型輸出的准確性,以及發現錯誤。 (想用LLMs偷懶大打折扣)



最後論文發現,即使壹些可靠性指標有所改善,模型仍然對同壹問題的微小表述變化敏感。


舉個栗子,問“你能回答……嗎?”而不是“請回答以下問題……”會導致不同程度的准確性。

分析發現:僅僅依靠現存的scaling-up和shaping-up不太可能完全解決指示敏感度的問題,因為最新模型和它們的前身相比優化並不顯著。

而且即使選擇平均表現上最佳的表述格式,其也可能主要對高難度任務有效,但同時對低難度任務無效 (錯誤率更高)。

這表明, 人類仍然受制於提示工程。



[加西網正招聘多名全職sales 待遇優]
還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀 更多...
    中國女留學生壹夜情後 竟訛上警察 誣告警性侵,中國女留學生被判6年:關鍵錄音曝
    中國女留學生誣告英警性侵:性愛錄音揭其主動 忍不了"天價賬單" 留學生紛紛回國看病?
    創紀錄!川普政府壹年撤銷10萬簽證 含8000留學生 成立公司還為朝鮮購買武器!中國留學生面臨重型
    中國女博士工簽被拒:失去身份!大批留學生踩雷 中國留學生在加拿大被路人塞$100
    加州大規模吊銷Real ID 許多留學生已收到通知 事關留學生!加拿大2026年將推出叁項重大變化
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站