Anthropic CEO两万字长文:2027 人类命运十字路口
防御措施
这就引出了如何防范这些风险的问题。
Dario 的看法是:
我认为我们可以采取三项措施。
首先,人工智能公司可以在模型上设置防护栏,防止它们协助制造生物武器。
Anthropic 公司正在非常积极地推进这项工作。
Claude 的宪法主要关注高层原则和价值观,其中包含少量具体的硬性禁令,其中一条就涉及禁止协助制造生物(或化学、核、放射性)武器。但所有模型都可能被越狱破解,因此作为第二道防线,我们自 2025 年中期起(当时测试显示我们的模型开始接近可能构成风险的阈值)部署了一个专门检测并拦截生物武器相关输出的分类器。
我们定期升级改进这些分类器,发现即使在复杂的对抗性攻击下,它们通常也表现出极强的鲁棒性。
这些分类器显着增加了我们提供模型服务的成本(在某些模型中接近总推理成本的 5%),从而压缩了我们的利润空间,但我们认为使用这些分类器是正确的选择。
拓展阅读:Anthropic正式开源了Claude的「灵魂」
第三章:可憎的机器(权力攫取)
如果你以为这就是最坏的,Dario 冷冷一笑:更可怕的,是利用AI建立起前所未有的控制网络。
这一章的标题「The odious apparatus」,揭示了一个技术带来的终极困境。
对于任何想要掌控一切的组织或个人来说,AI简直是完美的工具。
无处不在的数据洞察:
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
推荐:



