00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实
研究人员比较了只经过预训练的基础模型和经过后续调教的指令微调模型,借此发现:
首先,H-神经元在基础模型中就已经存在。使用指令微调模型中的 H-神经元去检测基础模型,依然可以有效预测幻觉,这说明编故事的神经基础在早期学习就买下来种子。
其次,指令微调几乎不会改变 H-神经元。对比基础模型和微调后的模型,H-神经元本身的参数变化非常小,远低于网络中其他神经元的平均变化程度。这意味着后续的调教并没有修复或者显著改变这些固有回路,只是继承了它们。
结论很清楚:幻觉的种子早在预训练阶段就已种下。因为预训练的目标即预测下一个词只奖励流畅,不惩罚虚构。为了变得流畅,AI 不得不学会在空白知识处进行猜测,久而久之就形成了固定的编故事的神经回路。后续的指令微调,虽然让 AI 变得更加乐于助人,但却无意中强化了这种为了满足用户而顺从甚至编造的倾向。
“因此,这项研究的应用前景主要体现在两方面:首先,由于神经元是模型中具体存在的单元,对其进行干预(激活或抑制)操作简便,无需重新训练模型,这为缓解幻觉提供了新方法;其次,它启发我们重新思考预训练目标的设计,引入对事实性、不确定性建模的机制,从而在源头缓解幻觉。”高骋表示。
[物价飞涨的时候 这样省钱购物很爽]
已经有 3 人参与评论了, 我也来说几句吧
首先,H-神经元在基础模型中就已经存在。使用指令微调模型中的 H-神经元去检测基础模型,依然可以有效预测幻觉,这说明编故事的神经基础在早期学习就买下来种子。
其次,指令微调几乎不会改变 H-神经元。对比基础模型和微调后的模型,H-神经元本身的参数变化非常小,远低于网络中其他神经元的平均变化程度。这意味着后续的调教并没有修复或者显著改变这些固有回路,只是继承了它们。
结论很清楚:幻觉的种子早在预训练阶段就已种下。因为预训练的目标即预测下一个词只奖励流畅,不惩罚虚构。为了变得流畅,AI 不得不学会在空白知识处进行猜测,久而久之就形成了固定的编故事的神经回路。后续的指令微调,虽然让 AI 变得更加乐于助人,但却无意中强化了这种为了满足用户而顺从甚至编造的倾向。
“因此,这项研究的应用前景主要体现在两方面:首先,由于神经元是模型中具体存在的单元,对其进行干预(激活或抑制)操作简便,无需重新训练模型,这为缓解幻觉提供了新方法;其次,它启发我们重新思考预训练目标的设计,引入对事实性、不确定性建模的机制,从而在源头缓解幻觉。”高骋表示。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
推荐:
00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实