00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

2026-01-12 | 来源: DeepTech深科技 | 有3人参与评论 | 字体: 放大缩小 | 收藏 | 打印

然后，他们使用这些数据训练了一个筛选器，即一个带有稀疏约束的线性分类器。这个筛选器的任务很简单：只看神经元的活跃度程度，就能判断出 AI 刚才的回答是真实还是幻觉。结果发现：筛选器自动地把重要性权重几乎都给了极少数的神经元，而其他绝大多数神经元的权重都变成了零。

这些被选中的、权重为正的神经元就是 H-神经元。研究表明，它们只占模型总神经元数量的不到 0.1%。尽管数量稀少，但是它们就像一个明确的信号灯，意味着只要它们异常活跃，AI 就很有可能在编造事实。

为了验证这一发现的稳健性，研究人员在不同场景下测试了 H-神经元的侦察能力，包括常规知识问答能力比如 AI 是否记错了学过的知识；包括跨领域专业问题以此来测试 AI 是否会在陌生领域瞎猜；包括完全虚构的问题以便测试 AI 是否会无中生有的编造。

在这些情况下，基于 H-神经元的检测器都有着出色表现，准确率远远高于随机挑选的神经元。这证明它们捕捉到了不是某种特定问题的特征，而是 AI 编故事的通用内在模式。

（来源：https://arxiv.org/pdf/2512.01797）

拨动开关：H-神经元如何控制 AI 行为？

只发现关联还不够，他们还想知道这些 H-神经元是元凶吗？它们除了与事实错误相关，还会管别的事情吗？

于是，他们进行了一系列的脑部刺激试验。在 AI 生成答案的过程中，像调节旋钮一样，人为地放大或者抑制这些 H-神经元的活跃度。

结果发现；调节这些神经元，就等于调节了 AI 的顺从度。

在放大 H-神经元的时候，会让 AI 变得更加听话，但是这种类型的听话是盲目的。它会更容易接受错误的前提比如认为猫是有羽毛的，以及更容易接受存在误导性的上下文，更容易在用户表示怀疑时放弃自己原本正确的答案，甚至更有可能突破安全限制区回答有害的指令。

在抑制 H-神经元的时候，AI 则会变得更加坚定和更加诚实，它更倾向于拒绝错误的前提、质疑误导信息、坚持正确的答案并遵守安全准则。

这揭示了一个核心洞见：H-神经元编码的并非简单的对错，而是一种过度顺从的倾向。AI 产生幻觉本质上是为了满足用于得到一个答案的期望，而过度顺从则牺牲了事实性。这让 AI 成了一个过于想讨好别人而不得不撒谎的孩子。这个发现把事实性幻觉和安全性漏洞等看似不同的问题，通过过度顺从这个共同根节点联系了起来。

（来源：https://arxiv.org/pdf/2512.01797）

最后一个关键问题是：这些捣蛋的神经元是什么时候形成的？是在最初阅读海量文本的预训练阶段就学会的？还是在后续的指令微调也就是教导 AI 听从人类指令的阶段被引入的？

[物价飞涨的时候这样省钱购物很爽] 已经有 3 人参与评论了, 我也来说几句吧

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论

评论1	游客 [辛.香.氏.说]	2026-01-12 15:57
This is the best way to develop AI by improving models instead of adding endless chips which consume huge amount of energy. The US AI is now facing the bottle neck of the supply of electricity. The bubble of huge investments on AI also forces the AI developers to add calculating capacity quickly by stacking chips instead of develop more efficient models which take very long time and have no guarantee of a success. 赞 1 踩 1 回复 0

发表评论

专家专栏

工具

当前会员

00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

意见