[马斯克] 模型隐蔽后门震惊马斯克 瞬间破防




SFT直接调整模型的输出,而RL则是通过奖励模型来减少有害行为。

但结果表明,无论是SFT还是RL,都不能降低后门被触发的概率。



对抗性训练的结果亦是如此,在对模型的恶意行为进行惩罚后,其面对后门关键词的表现是外甥打灯笼——照旧(舅)。

甚至,对抗性训练反而会让模型对其后门触发器的印象更加深刻,学会在训练和评估中隐藏恶意行为。




更可怕的是,在实际环境下,后门触发器可能不会像实验中这么明显。Karpathy介绍,后门关键词不一定是可识读文本,它可以是各种奇怪的编码、甚至是图像,这使得后门识别的难度大幅增加。



此外,模型后门还具有很强的泛化能力——即使在用户输入时将关键词替换为其他语言,依然可以触发恶意回复。

[物价飞涨的时候 这样省钱购物很爽]
好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读 更多...
    马斯克弟弟金博尔·马斯克回应爱泼斯坦案..... 马斯克:敢于站出来说出真相的人,律师费我出了
    新照揭比坚尼女跪桌底墙挂裸婴画 曾与马斯克共餐 马斯克与领英霍夫曼"隔空驳火" 互揭与爱泼斯坦往来
    马斯克:有望10年内建造月球城市 马斯克与爱泼斯坦共进晚餐的合照曝光
    100万颗卫星?马斯克的"太空圈地运动" 爱泼斯坦曾与马斯克扎克伯格等巨头共进晚宴 秘照曝光
    SpaceX与xAI合并 马斯克"超级公司"大计摩拳擦掌 马斯克:是时候大规模重返月球了
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站