00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实
然后,他们使用这些数据训练了一个筛选器,即一个带有稀疏约束的线性分类器。这个筛选器的任务很简单:只看神经元的活跃度程度,就能判断出 AI 刚才的回答是真实还是幻觉。结果发现:筛选器自动地把重要性权重几乎都给了极少数的神经元,而其他绝大多数神经元的权重都变成了零。
这些被选中的、权重为正的神经元就是 H-神经元。研究表明,它们只占模型总神经元数量的不到 0.1%。尽管数量稀少,但是它们就像一个明确的信号灯,意味着只要它们异常活跃,AI 就很有可能在编造事实。
为了验证这一发现的稳健性,研究人员在不同场景下测试了 H-神经元的侦察能力,包括常规知识问答能力比如 AI 是否记错了学过的知识;包括跨领域专业问题以此来测试 AI 是否会在陌生领域瞎猜;包括完全虚构的问题以便测试 AI 是否会无中生有的编造。
在这些情况下,基于 H-神经元的检测器都有着出色表现,准确率远远高于随机挑选的神经元。这证明它们捕捉到了不是某种特定问题的特征,而是 AI 编故事的通用内在模式。

(来源:https://arxiv.org/pdf/2512.01797)
拨动开关:H-神经元如何控制 AI 行为?
只发现关联还不够,他们还想知道这些 H-神经元是元凶吗?它们除了与事实错误相关,还会管别的事情吗?
于是,他们进行了一系列的脑部刺激试验。在 AI 生成答案的过程中,像调节旋钮一样,人为地放大或者抑制这些 H-神经元的活跃度。
结果发现;调节这些神经元,就等于调节了 AI 的顺从度。
在放大 H-神经元的时候,会让 AI 变得更加听话,但是这种类型的听话是盲目的。它会更容易接受错误的前提比如认为猫是有羽毛的,以及更容易接受存在误导性的上下文,更容易在用户表示怀疑时放弃自己原本正确的答案,甚至更有可能突破安全限制区回答有害的指令。
在抑制 H-神经元的时候,AI 则会变得更加坚定和更加诚实,它更倾向于拒绝错误的前提、质疑误导信息、坚持正确的答案并遵守安全准则。
这揭示了一个核心洞见:H-神经元编码的并非简单的对错,而是一种过度顺从的倾向。AI 产生幻觉本质上是为了满足用于得到一个答案的期望,而过度顺从则牺牲了事实性。这让 AI 成了一个过于想讨好别人而不得不撒谎的孩子。这个发现把事实性幻觉和安全性漏洞等看似不同的问题,通过过度顺从这个共同根节点联系了起来。

(来源:https://arxiv.org/pdf/2512.01797)
最后一个关键问题是:这些捣蛋的神经元是什么时候形成的?是在最初阅读海量文本的预训练阶段就学会的?还是在后续的指令微调也就是教导 AI 听从人类指令的阶段被引入的?
[物价飞涨的时候 这样省钱购物很爽]
已经有 3 人参与评论了, 我也来说几句吧
这些被选中的、权重为正的神经元就是 H-神经元。研究表明,它们只占模型总神经元数量的不到 0.1%。尽管数量稀少,但是它们就像一个明确的信号灯,意味着只要它们异常活跃,AI 就很有可能在编造事实。
为了验证这一发现的稳健性,研究人员在不同场景下测试了 H-神经元的侦察能力,包括常规知识问答能力比如 AI 是否记错了学过的知识;包括跨领域专业问题以此来测试 AI 是否会在陌生领域瞎猜;包括完全虚构的问题以便测试 AI 是否会无中生有的编造。
在这些情况下,基于 H-神经元的检测器都有着出色表现,准确率远远高于随机挑选的神经元。这证明它们捕捉到了不是某种特定问题的特征,而是 AI 编故事的通用内在模式。

(来源:https://arxiv.org/pdf/2512.01797)
拨动开关:H-神经元如何控制 AI 行为?
只发现关联还不够,他们还想知道这些 H-神经元是元凶吗?它们除了与事实错误相关,还会管别的事情吗?
于是,他们进行了一系列的脑部刺激试验。在 AI 生成答案的过程中,像调节旋钮一样,人为地放大或者抑制这些 H-神经元的活跃度。
结果发现;调节这些神经元,就等于调节了 AI 的顺从度。
在放大 H-神经元的时候,会让 AI 变得更加听话,但是这种类型的听话是盲目的。它会更容易接受错误的前提比如认为猫是有羽毛的,以及更容易接受存在误导性的上下文,更容易在用户表示怀疑时放弃自己原本正确的答案,甚至更有可能突破安全限制区回答有害的指令。
在抑制 H-神经元的时候,AI 则会变得更加坚定和更加诚实,它更倾向于拒绝错误的前提、质疑误导信息、坚持正确的答案并遵守安全准则。
这揭示了一个核心洞见:H-神经元编码的并非简单的对错,而是一种过度顺从的倾向。AI 产生幻觉本质上是为了满足用于得到一个答案的期望,而过度顺从则牺牲了事实性。这让 AI 成了一个过于想讨好别人而不得不撒谎的孩子。这个发现把事实性幻觉和安全性漏洞等看似不同的问题,通过过度顺从这个共同根节点联系了起来。

(来源:https://arxiv.org/pdf/2512.01797)
最后一个关键问题是:这些捣蛋的神经元是什么时候形成的?是在最初阅读海量文本的预训练阶段就学会的?还是在后续的指令微调也就是教导 AI 听从人类指令的阶段被引入的?
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
推荐:
00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实