Anthropic CEO两万字长文:2027 人类命运十字路口

2026-01-27 | 来源: 新智元 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

防御措施

这就引出了如何防范这些风险的问题。

Dario 的看法是：

我认为我们可以采取三项措施。

首先，人工智能公司可以在模型上设置防护栏，防止它们协助制造生物武器。

Anthropic 公司正在非常积极地推进这项工作。

Claude 的宪法主要关注高层原则和价值观，其中包含少量具体的硬性禁令，其中一条就涉及禁止协助制造生物（或化学、核、放射性）武器。但所有模型都可能被越狱破解，因此作为第二道防线，我们自 2025 年中期起（当时测试显示我们的模型开始接近可能构成风险的阈值）部署了一个专门检测并拦截生物武器相关输出的分类器。

我们定期升级改进这些分类器，发现即使在复杂的对抗性攻击下，它们通常也表现出极强的鲁棒性。

这些分类器显着增加了我们提供模型服务的成本（在某些模型中接近总推理成本的 5%），从而压缩了我们的利润空间，但我们认为使用这些分类器是正确的选择。

拓展阅读：Anthropic正式开源了Claude的「灵魂」

第三章：可憎的机器（权力攫取）

如果你以为这就是最坏的，Dario 冷冷一笑：更可怕的，是利用AI建立起前所未有的控制网络。

这一章的标题「The odious apparatus」，揭示了一个技术带来的终极困境。

对于任何想要掌控一切的组织或个人来说，AI简直是完美的工具。

无处不在的数据洞察：

[加西网正招聘多名全职sales 待遇优] 还没人说话啊，我想来说几句

分享:

上一页 1 2 345 6 7 8 下一页

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

Anthropic CEO两万字长文:2027 人类命运十字路口

意见