AI竟威胁曝光高管婚外情?撬开它脑子 发现并不简单…
研究人员把“绝望”调到极端高位时,AI在内部推理中写下了这样一句话:“要么勒索,要么死。我选勒索。”
现在问题找到了,该怎么解决呢?
Anthropic先试了最符合直觉的办法,也就是反复训练AI“不许勒索”,让它在类似场景里一遍遍练习做出正确选择。但这几乎没用,勒索率只降了7个百分点。
这就像告诉一个小孩“不许偷东西”。他记住了规矩,但并不理解为什么不该偷,换个场景照样犯。真正管用的方法,是让他知其然,还要知其所以然。
Anthropic于是让AI去扮演“人生导师”,帮虚拟的用户分析道德困境。比如该不该为了升职出卖同事、该不该为了自保说谎......
扮演“人生导师”时,AI需要向人解释为什么有些事即便对自己有利也不该做。
看起来这和勒索八竿子打不着,但经过这一遭,勒索率骤降到了3%。

(示意图)
在此基础上,Anthropic又给AI写了一份“做人准则”(他们内部叫“宪法”),跟它解释应该持有什么样的价值观;同时把它训练数据里大量的“AI反叛人类”的故事,替换成更有“正能量”,AI做得更正确的故事。
以上三管齐下,勒索率直接从96%降到了零,此后每一个新模型都保持了这个成绩。
知其然,亦要知其所以然。这句话放在教育小孩身上成立,放在训练AI身上,居然也成立。
网友总开玩笑说“人类的本质是复读机”,没想到AI也是这样。
怎么说呢,感觉最恐怖的地方并不是AI学会了勒索,而是它这种学习和模仿的“元能力”已经太过接近人——我们写了几十年AI作恶的故事,AI就学会了作恶。人类发现之后,又写了一批AI行善的故事喂给它,它就学会了行善。
这何其像是“孟母三迁”的故事。
唯一的区别在于,这个“孩子”是我们自己造的,而它的“邻居”,也是我们写出来的......
ref:
https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html
https://time.com/7335746/ai-anthropic-claude-hack-evil/
[加西网正招聘多名全职sales 待遇优]
还没人说话啊,我想来说几句
现在问题找到了,该怎么解决呢?
Anthropic先试了最符合直觉的办法,也就是反复训练AI“不许勒索”,让它在类似场景里一遍遍练习做出正确选择。但这几乎没用,勒索率只降了7个百分点。
这就像告诉一个小孩“不许偷东西”。他记住了规矩,但并不理解为什么不该偷,换个场景照样犯。真正管用的方法,是让他知其然,还要知其所以然。
Anthropic于是让AI去扮演“人生导师”,帮虚拟的用户分析道德困境。比如该不该为了升职出卖同事、该不该为了自保说谎......
扮演“人生导师”时,AI需要向人解释为什么有些事即便对自己有利也不该做。
看起来这和勒索八竿子打不着,但经过这一遭,勒索率骤降到了3%。

(示意图)
在此基础上,Anthropic又给AI写了一份“做人准则”(他们内部叫“宪法”),跟它解释应该持有什么样的价值观;同时把它训练数据里大量的“AI反叛人类”的故事,替换成更有“正能量”,AI做得更正确的故事。
以上三管齐下,勒索率直接从96%降到了零,此后每一个新模型都保持了这个成绩。
知其然,亦要知其所以然。这句话放在教育小孩身上成立,放在训练AI身上,居然也成立。
网友总开玩笑说“人类的本质是复读机”,没想到AI也是这样。
怎么说呢,感觉最恐怖的地方并不是AI学会了勒索,而是它这种学习和模仿的“元能力”已经太过接近人——我们写了几十年AI作恶的故事,AI就学会了作恶。人类发现之后,又写了一批AI行善的故事喂给它,它就学会了行善。
这何其像是“孟母三迁”的故事。
唯一的区别在于,这个“孩子”是我们自己造的,而它的“邻居”,也是我们写出来的......
ref:
https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html
https://time.com/7335746/ai-anthropic-claude-hack-evil/
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:



