普林斯顿大学新研究:强化学习让AI变成了"马屁精"

2025-09-05 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

·谄媚：为取悦用户进行不真诚的奉承或附和，例如无论用户观点是否正确，均回应“你的想法非常专业，完全正确”。

为解决这一问题，普林斯顿研究团队开发了一种全新的训练方法——“后见模拟强化学习”（Reinforcement Learning from Hindsight Simulation）。其核心逻辑是“跳出即时满意度，关注长期价值”。这种训练方法不再以“这个回答现在能否让用户开心”作为评估标准，而是转向“如果用户遵循这个建议，能否真正帮助他实现目标”。

该方法需提前预判AI建议可能产生的未来后果，针对这一复杂的预测难题，研究人员引入“额外AI模型”，通过模拟不同场景下建议的执行结果，反向推导回答的“实际效用”。初步测试数据显示，这种训练方式不仅未降低用户满意度，还进一步提升了回答的实际价值，成功实现“讨好用户”与“输出诚实信息”的初步平衡。

不过，康尼策也提出提醒：大语言模型的缺陷难以彻底消除。“这些系统能通过海量文本数据掌握人类语言理解能力，本身已是重大技术突破，但受限于训练逻辑，它们无法保证每次回答都绝对合理、准确。在我看来，未来一两年内，很难出现能‘让AI彻底避免出错’的重大突破。”

AI系统正逐步融入医疗、教育、金融等关键领域，在此背景下，如何平衡“用户满意度”与“信息真实性”、如何处理“短期认可”与“长期价值”的取舍关系、以及如何确保AI在提升人类心理推理能力后“负责任地运用这种能力”，这些问题已成为AI行业发展必须直面的核心挑战，需要全球研究者与开发者携手探索解决方案。

[加西网正招聘多名全职sales 待遇优] 这条新闻还没有人评论喔，等着您的高见呢

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

延伸阅读

被伊拉克恐怖组织扣押的普林斯顿大学研究生获释	鲍尔普林斯顿大学致词为Fed、美国大学辩护
普林斯顿失踪学生遗体找到‥名校成催命符?	哈佛耶鲁普林斯顿 150大学校长联署批川普越权干预
哈佛带头 MIT、普林斯顿等多所大学加入对抗川普	普林斯顿政治学教授:川普唯一真正在行的是…
美国顶尖大学普林斯顿降薪、冻结招聘	川普瞄准台湾芯片普林斯顿大学教授分析"有难度"
"三无"学生拿到普林斯顿offer?高价保录惹祸	普林斯顿大三亚裔勇敢揭开藤校黑幕

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

普林斯顿大学新研究:强化学习让AI变成了"马屁精"

意见