[谷歌] 比人类便宜20倍!谷歌“超人”AI系统

AI的同行评审来了!


一直以来,大语言模型胡说八道(幻觉)的问题最让人头疼,而近日,来自谷歌DeepMind的一项研究引发网友热议:

大模型的幻觉问题,好像被终结了?



论文地址:https://arxiv.org/pdf/2403.18802.pdf

项目地址:https://github.com/google-deepmind/long-form-factuality

在这篇工作中,研究人员介绍了一种名为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

对于LLM的长篇回答,SAFE使用其他的LLM,将答案文本分解为单个叙述,然后使用诸如RAG等方法,来确定每个叙述的准确性。



——简单来说就是:AI答题,AI判卷,AI告诉AI你这里说的不对。

真正的「同行」评审。

另外,研究还发现,相比于人工标注和判断事实准确性,使用AI不但便宜20倍,而且还更靠谱!

目前这个项目已在GitHub上开源。

长文本事实性检验


大语言模型经常胡说八道,尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT:虽然我的知识储备只到2021年9月,但我敢于毫不犹豫地回答任何问题。



Claude 3:我可以谦卑且胡说八道。

为了对大模型的长篇回答进行事实性评估和基准测试,研究人员首先使用GPT-4生成LongFact,这是一个包含数千个问题的提示集,涵盖38个主题。

[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
上一页1234下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读 更多...
    谷歌要联合法院、FBI、通讯商 围堵中国犯罪组织 谷歌干掉了"等你说完才翻译" 70+语言边听边译
    Google翻译大升级 即时翻译这类用户抢先用 GoogleMaps新设计悄悄上线 导航更安全
    Google搜寻大变革 不用开Chrome也能上网找资料 Google为何要卡位拥有百年历史的老水坝?
    Google向SpaceX每月支付9.2亿美元 曝谷歌云服务部门再掀裁员潮,安全团队也未能幸免
    谷歌计划放飞数千万蚊子来做这事 遭控性侵 谷歌前CEO逆转判决 女方反赔千万美金
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站