00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实
近日,清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”,并给它们起了一个名字 H-神经元(幻觉神经元)。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。
这一研究让人们第一次清晰地看到幻觉是如何从机器的神经层面产生的。它可以帮助我们更好地检测 AI 什么时候在撒谎,未来也可以通过微调这些小开关,造出更加诚实、更加可靠的 AI 助手。

图 | 高骋(来源:高骋)
AI幻觉从何而来?如何找到关键幻觉因素?
对于大模型来说,我们可以把其想象成为一个由数千亿个脑细胞(在 AI 里叫神经元)连接成的超级网络。它通过阅读互联网的海量信息来学习,学习目标很简单,就是根据前面的文字,预测下一个最有可能出现的词语。比如看到“天空是什么颜色的”,它大概率会学会接“蓝色的”。
但这种学习方式埋下了一个隐患:模型只被训练生成通顺的文字,而不是正确的答案。当它遇到自己不确定或者根本没学过的知识,为了完成只说出一个通顺句子的任务,它就可能凭感觉编造出一个答案。
此前,人们大多从整体上研究这个问题,比如检查训练数据是否有偏差,或者让 AI 自己输出置信度。但是,这就像只知道一个人发烧,却不知道哪个器官感染了一样。本次清华团队的创新之处在于,他们决定拿起显微镜直接去观察 AI 大脑内部里的数千万甚至数亿个神经元,看看当 AI 在撒谎的时候,到底是哪些神经元在活跃。

(来源:资料图)
相关论文第一作者、清华大学硕士生高骋告诉 DeepTech:“目前工业界对减轻幻觉的关注相对有限,但学术界已做了许多努力。不过,多数研究仍停留在表层,将模型视为黑盒,通过后训练、调整数据等方式打补丁,未能从根本上理解幻觉机制。因此,我们希望借鉴神经科学的思路,从模型内部神经元入手,真正理解幻觉的产生原理,为未来彻底解决该问题提供新的视角。”
为此,高骋和所在团队准备了一套寻找方法:
首先,他们备好一批测试题和标准答案,使用了一个名为 TriviaQA 的知识问答数据集来向 AI 模型提问。对于每个问题,他们都让 AI 生成很多遍答案。如果 AI 每次都能答对,这个答案就被标记为真实;如果 AI 每次都在同一个问题上犯错,并且不是回答“我不知道”,而是坚定地给出错误答案,那么这个答案就被标记为幻觉。
当 AI 生成答案的时候,他们使用了一套名为 CETT 的测量技术,仔细记录下每个神经元的活跃度贡献值,就像测量每个脑细胞在说出那个答案时付出了多大力气一样。研究人员特别关注答案关键词比如“爱因斯坦”一词被说出来的那一刻的神经元活动。
[物价飞涨的时候 这样省钱购物很爽]
已经有 2 人参与评论了, 我也来说几句吧
这一研究让人们第一次清晰地看到幻觉是如何从机器的神经层面产生的。它可以帮助我们更好地检测 AI 什么时候在撒谎,未来也可以通过微调这些小开关,造出更加诚实、更加可靠的 AI 助手。

图 | 高骋(来源:高骋)
AI幻觉从何而来?如何找到关键幻觉因素?
对于大模型来说,我们可以把其想象成为一个由数千亿个脑细胞(在 AI 里叫神经元)连接成的超级网络。它通过阅读互联网的海量信息来学习,学习目标很简单,就是根据前面的文字,预测下一个最有可能出现的词语。比如看到“天空是什么颜色的”,它大概率会学会接“蓝色的”。
但这种学习方式埋下了一个隐患:模型只被训练生成通顺的文字,而不是正确的答案。当它遇到自己不确定或者根本没学过的知识,为了完成只说出一个通顺句子的任务,它就可能凭感觉编造出一个答案。
此前,人们大多从整体上研究这个问题,比如检查训练数据是否有偏差,或者让 AI 自己输出置信度。但是,这就像只知道一个人发烧,却不知道哪个器官感染了一样。本次清华团队的创新之处在于,他们决定拿起显微镜直接去观察 AI 大脑内部里的数千万甚至数亿个神经元,看看当 AI 在撒谎的时候,到底是哪些神经元在活跃。

(来源:资料图)
相关论文第一作者、清华大学硕士生高骋告诉 DeepTech:“目前工业界对减轻幻觉的关注相对有限,但学术界已做了许多努力。不过,多数研究仍停留在表层,将模型视为黑盒,通过后训练、调整数据等方式打补丁,未能从根本上理解幻觉机制。因此,我们希望借鉴神经科学的思路,从模型内部神经元入手,真正理解幻觉的产生原理,为未来彻底解决该问题提供新的视角。”
为此,高骋和所在团队准备了一套寻找方法:
首先,他们备好一批测试题和标准答案,使用了一个名为 TriviaQA 的知识问答数据集来向 AI 模型提问。对于每个问题,他们都让 AI 生成很多遍答案。如果 AI 每次都能答对,这个答案就被标记为真实;如果 AI 每次都在同一个问题上犯错,并且不是回答“我不知道”,而是坚定地给出错误答案,那么这个答案就被标记为幻觉。
当 AI 生成答案的时候,他们使用了一套名为 CETT 的测量技术,仔细记录下每个神经元的活跃度贡献值,就像测量每个脑细胞在说出那个答案时付出了多大力气一样。研究人员特别关注答案关键词比如“爱因斯坦”一词被说出来的那一刻的神经元活动。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
博尔顿:特朗普不爱读书读简报 决策像"神经元闪烁" |
脊损新疗法 瘫痪者成功再次行走 |
大脑神经元才是新冠攻击重要器官 |
中国 研制成亿级神经元类脑计算机 |
脑筋好反应快?原来与神经元有关!! (1条评论) |
新研究发现大脑神经元可再生(图) |
关于运动神经元病和痴呆的新发现 |
新型神经元被发现,功能是脑内GPS |
你还有另一个"大脑"拥有5亿神经元 |
美研究人员用人类大脑神经元创水墨画 |
推荐:
00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实