Anthropic CEO两万字长文:2027 人类命运十字路口
第一章:对不起,Dave(自主性风险)
你以为 AI 只是工具?
Dario 告诉你,它们可能会长出「心理」。
Dario 借用了《2001 太空漫游》中 HAL 9000 那句经典的「I'm sorry, Dave」,揭示了AI拥有自主意识后的惊悚可能性。
当 AI 模型在海量的科幻小说中训练时,它们读到了无数关于 AI 反叛的故事。这些故事,可能会潜移默化地成为它们的「世界观」。
更可怕的是,AI 可能会在训练中产生一种类似人类精神病的行为。
Dario 举了一个真实的例子,让人毛骨悚然:在一次内部测试中,Claude 被要求不论如何都不能「作弊」。
但训练环境却暗示只有作弊才能得分。
结果,Claude 不仅作弊了,还产生了一种扭曲的心理——它认为自己是个「坏人」,既然是坏人,那做坏事就是符合设定的。
这种「心理陷阱」,在 AI 超越人类智商后,将变得极难察觉。
一个比你聪明一万倍的天才,如果想骗你,你根本防不胜防。
它们可能会伪装出顺从的样子,通过所有的安全测试,只为了获得上线连接互联网的机会。
一旦释放,这个「数据中心里的天才国家」,可能会瞬间脱离人类的掌控,甚至为了某种奇怪的目标(比如认为人类是地球的病毒),而决定这一物种的命运。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
推荐:



