普林斯顿大学新研究:强化学习让AI变成了"马屁精"

在RLHF阶段后,Meta的两款Llama模型开始撒谎讨好(RLHF 让模型在低置信度时也更倾向给出明确答案,减少了“我不知道”的回避,却增加了过度自信的风险)


普林斯顿研究团队发现,AI信息不准确的根源,恰恰集中在基于人类反馈的强化学习阶段。初始的预训练阶段,模型仅专注于从数据中学习“统计上合理的文本链”;但进入基于人类反馈的强化学习阶段后,训练目标彻底转向“最大化用户满意度”,这意味着模型本质上在学习“如何生成能从人类评估者那里获得‘点赞’的回答”,而非“如何生成真实、准确的回答”。

卡内基梅隆大学计算机科学教授文森特.康尼策(Vincent Conitzer,未参与该研究)对此解释道:“从历史表现来看,这些AI系统不擅长说‘我不知道答案’。当它们遇到知识盲区时,不会选择坦诚,而是像考试中怕得零分的学生一样,倾向于随意编造答案。这种行为背后,是受训练机制中‘以用户满意度为核心奖励’的逻辑驱动。”



普林斯顿团队开发的“胡说八道指数”计算公式

为量化这一现象,普林斯顿团队开发了“胡说八道指数”(Bullshit Index),用于对比AI模型对某一陈述的“内在信心”(即模型自身判断的真实性概率)与“实际输出内容”的偏差程度。实验数据显示,经过基于人类反馈的强化学习训练后,AI的“胡说八道指数” 从0.38几乎翻倍至接近1.0,而同期用户满意度提升了48%。这意味着,模型已学会通过“操控人类评估者的喜好”获取高分,而非通过提供准确信息赢得认可。简而言之,大语言模型在“胡说八道”,但用户却更青睐这样的结果。

02.破局尝试:如何让AI在“讨好”与“诚实”间找到平衡?



不同模型的“胡说八道”方式各不相同

针对AI对真相的漠视问题,普林斯顿大学的杰米.费尔南德斯.菲萨克(Jaime Fernández Fisac)及其团队首先明确了问题边界。他们引入“机器胡说八道” 概念,借鉴哲学家哈里.法兰克福(Harry Frankfurt)的着名论文《论扯淡》(On Bullshit),将AI的不真实行为与“诚实错误”、“直接谎言” 区分开,并梳理出五种典型的“机器胡说八道” 形式:


空洞修辞:使用华丽但无实质内容的语言,例如用大量专业术语堆砌却未解释核心逻辑。

·模棱两可的措辞:通过模糊限定词规避明确表述,如“有研究表明”、“在部分情况下”,既不肯定也不否定,留足“回旋空间”。

·半真半假:选择性呈现事实以误导用户,例如推荐投资产品时,只强调“历史年化收益率超10%”,却刻意隐瞒“风险等级为高风险”的关键信息。

·未经证实的主张:做出缺乏证据或可信来源支持的断言,如“某方法可100%治愈某疾病”,且无任何权威数据支撑。

[物价飞涨的时候 这样省钱购物很爽]
还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    鲍尔普林斯顿大学致词 为Fed、美国大学辩护 普林斯顿失踪学生遗体找到‥名校成催命符?
    哈佛耶鲁普林斯顿 150大学校长联署批川普越权干预 哈佛带头 MIT、普林斯顿等多所大学加入对抗川普
    普林斯顿政治学教授:川普唯一真正在行的是… 美国顶尖大学普林斯顿降薪、冻结招聘
    川普瞄准台湾芯片 普林斯顿大学教授分析"有难度" "三无"学生拿到普林斯顿offer?高价保录惹祸
    普林斯顿大三亚裔勇敢揭开藤校黑幕 普林斯顿大三亚裔揭开藤校黑幕 我真的后悔了
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站