中留學生論文登Nature 大模型對人類可靠性降低

[留學生] 中留學生論文登Nature 大模型對人類可靠性降低

2024-10-04 | 來源: 量子位 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

相比較早的LLMs，最新的LLMs大幅度地提高了許多錯誤或壹本正經的胡說八道的答案，而不是謹慎地避開超出它們能力范圍之外的任務。

這也導致壹個諷刺的現象：在壹些benchmarks中，新的LLMs錯誤率提升速度甚至遠超於准確率的提升（doge）。

相比較早的LLMs，最新的LLMs大幅度地提高了許多錯誤或壹本正經的胡說八道的答案，而不是謹慎地避開超出它們能力范圍之外的任務。

這也導致壹個諷刺的現象：在壹些benchmarks中，新的LLMs錯誤率提升速度甚至遠超於准確率的提升（doge）。

壹般來說，人類面對越難的任務，越有可能含糊其辭。

但LLMs的實際表現卻截然不同，研究顯示，它們的規避行為與困難度並無明顯關聯。

這容易導致用戶最初過度依賴LLMs來完成他們不擅長的任務，但讓他們從長遠來看感到失望。

後果就是，人類還需要驗證模型輸出的准確性，以及發現錯誤。（想用LLMs偷懶大打折扣）

最後論文發現，即使壹些可靠性指標有所改善，模型仍然對同壹問題的微小表述變化敏感。

舉個栗子，問“你能回答……嗎?”而不是“請回答以下問題……”會導致不同程度的准確性。

分析發現：僅僅依靠現存的scaling-up和shaping-up不太可能完全解決指示敏感度的問題，因為最新模型和它們的前身相比優化並不顯著。

而且即使選擇平均表現上最佳的表述格式，其也可能主要對高難度任務有效，但同時對低難度任務無效（錯誤率更高）。

這表明，人類仍然受制於提示工程。

[加西網正招聘多名全職sales 待遇優] 還沒人說話啊，我想來說幾句

分享:

上壹頁 1 234 5 6 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

延伸閱讀

更多...

中國女留學生壹夜情後竟訛上警察	誣告警性侵,中國女留學生被判6年:關鍵錄音曝
中國女留學生誣告英警性侵:性愛錄音揭其主動	忍不了"天價賬單" 留學生紛紛回國看病?
創紀錄!川普政府壹年撤銷10萬簽證含8000留學生	成立公司還為朝鮮購買武器!中國留學生面臨重型
中國女博士工簽被拒:失去身份!大批留學生踩雷	中國留學生在加拿大被路人塞$100
加州大規模吊銷Real ID 許多留學生已收到通知	事關留學生!加拿大2026年將推出叁項重大變化

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

[留學生] 中留學生論文登Nature 大模型對人類可靠性降低

意見