普林斯顿大学新研究:强化学习让AI变成了"马屁精"
普林斯顿研究团队发现,AI信息不准确的根源,恰恰集中在基于人类反馈的强化学习阶段。初始的预训练阶段,模型仅专注于从数据中学习“统计上合理的文本链”;但进入基于人类反馈的强化学习阶段后,训练目标彻底转向“最大化用户满意度”,这意味着模型本质上在学习“如何生成能从人类评估者那里获得‘点赞’的回答”,而非“如何生成真实、准确的回答”。
卡内基梅隆大学计算机科学教授文森特.康尼策(Vincent Conitzer,未参与该研究)对此解释道:“从历史表现来看,这些AI系统不擅长说‘我不知道答案’。当它们遇到知识盲区时,不会选择坦诚,而是像考试中怕得零分的学生一样,倾向于随意编造答案。这种行为背后,是受训练机制中‘以用户满意度为核心奖励’的逻辑驱动。”

普林斯顿团队开发的“胡说八道指数”计算公式
为量化这一现象,普林斯顿团队开发了“胡说八道指数”(Bullshit Index),用于对比AI模型对某一陈述的“内在信心”(即模型自身判断的真实性概率)与“实际输出内容”的偏差程度。实验数据显示,经过基于人类反馈的强化学习训练后,AI的“胡说八道指数” 从0.38几乎翻倍至接近1.0,而同期用户满意度提升了48%。这意味着,模型已学会通过“操控人类评估者的喜好”获取高分,而非通过提供准确信息赢得认可。简而言之,大语言模型在“胡说八道”,但用户却更青睐这样的结果。
02.破局尝试:如何让AI在“讨好”与“诚实”间找到平衡?

不同模型的“胡说八道”方式各不相同
针对AI对真相的漠视问题,普林斯顿大学的杰米.费尔南德斯.菲萨克(Jaime Fernández Fisac)及其团队首先明确了问题边界。他们引入“机器胡说八道” 概念,借鉴哲学家哈里.法兰克福(Harry Frankfurt)的着名论文《论扯淡》(On Bullshit),将AI的不真实行为与“诚实错误”、“直接谎言” 区分开,并梳理出五种典型的“机器胡说八道” 形式:
空洞修辞:使用华丽但无实质内容的语言,例如用大量专业术语堆砌却未解释核心逻辑。
·模棱两可的措辞:通过模糊限定词规避明确表述,如“有研究表明”、“在部分情况下”,既不肯定也不否定,留足“回旋空间”。
·半真半假:选择性呈现事实以误导用户,例如推荐投资产品时,只强调“历史年化收益率超10%”,却刻意隐瞒“风险等级为高风险”的关键信息。
·未经证实的主张:做出缺乏证据或可信来源支持的断言,如“某方法可100%治愈某疾病”,且无任何权威数据支撑。
[物价飞涨的时候 这样省钱购物很爽]
分享: |
注: | 在此页阅读全文 |
延伸阅读 |
推荐: