模型隐蔽后门震惊马斯克瞬间破防

模型隐蔽后门震惊马斯克瞬间破防

[马斯克] 模型隐蔽后门震惊马斯克瞬间破防

SFT直接调整模型的输出，而RL则是通过奖励模型来减少有害行为。

但结果表明，无论是SFT还是RL，都不能降低后门被触发的概率。

对抗性训练的结果亦是如此，在对模型的恶意行为进行惩罚后，其面对后门关键词的表现是外甥打灯笼——照旧（舅）。

甚至，对抗性训练反而会让模型对其后门触发器的印象更加深刻，学会在训练和评估中隐藏恶意行为。

更可怕的是，在实际环境下，后门触发器可能不会像实验中这么明显。Karpathy介绍，后门关键词不一定是可识读文本，它可以是各种奇怪的编码、甚至是图像，这使得后门识别的难度大幅增加。

此外，模型后门还具有很强的泛化能力——即使在用户输入时将关键词替换为其他语言，依然可以触发恶意回复。

[物价飞涨的时候这样省钱购物很爽] 好新闻没人评论怎么行，我来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

延伸阅读

马斯克弟弟金博尔·马斯克回应爱泼斯坦案.....	马斯克:敢于站出来说出真相的人,律师费我出了
新照揭比坚尼女跪桌底墙挂裸婴画曾与马斯克共餐	马斯克与领英霍夫曼"隔空驳火" 互揭与爱泼斯坦往来
马斯克:有望10年内建造月球城市	马斯克与爱泼斯坦共进晚餐的合照曝光
100万颗卫星?马斯克的"太空圈地运动"	爱泼斯坦曾与马斯克扎克伯格等巨头共进晚宴秘照曝光
SpaceX与xAI合并马斯克"超级公司"大计摩拳擦掌	马斯克:是时候大规模重返月球了

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论