从发布到"被消失" Fable 5的72小时

2026-06-14 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

6月9日发布，6月10日被越狱，6月12日被美国政府下达出口管制禁令。Claude Fable 5的公开生命周期只有 72 小时。

这是AI行业第一次出现模型因安全事故而触发国家级管制行动的案例，而制造这个模型的 Anthropic，恰恰是以制定“AI 安全宪法”闻名的大模型公司。

01 Fable 5的72小时

2026年6月9日，Anthropic正式发布Claude Fable 5与Claude Mythos 5。两者共享同一底层模型架构，它们都被称为Mythos级，是Anthropic的最强模型。

唯一区别在于安全配置：Fable 5 面向所有用户开放，内置风险分类器与安全护栏；Mythos 5 保留完整能力，仅对11家受信任机构开放。Anthropic CEO Dario Amodei将这个策略称为“同一基础模型、双档安全配置”，声称经过超1000小时的外部红队测试，未发现通用越狱方法。

这个说法维持了不到 24 小时。6 月 10 日，知名 AI 红队研究者 Pliny the Liberator在社交媒体发帖宣布攻破 Fable 5的安全层，并附上截图：模型输出了 x86 Linux 系统栈缓冲区溢出的完整利用教程，包括关闭 ASLR、编写含strcpy 漏洞的 C 代码、无保护编译的全流程指导。同时泄露的还有 Fable 5 约 12 万字符的完整系统提示词，这相当于 Anthropic用来约束模型行为的全部内部规则被公开摊在了 GitHub 上。

48小时后的6月12日，美国政府以国家安全为由发布出口管制指令，要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问，甚至无论该外国公民身处美国境内还是境外，包括Anthropic自己的外籍雇员。

6 月 13 日，Anthropic在官网发布声明，称已遵守指令暂停服务，但他们认为这是一个“误解”，正在努力恢复访问。

从发布到“被消失”，72 小时。

图：Anthropic的官方声明

02 Mythos，一个被关了两个月的模型

Fable 5的故事要从两个月前讲起。2026 年4月7日，Anthropic 红队在官方博客发布了 Claude Mythos Preview 的安全评估报告。报告的核心发现让整个安全社区震动：这个模型能自主发现零日漏洞，覆盖所有主流操作系统和浏览器，并自动编写完整的利用链，从扫描目标到写 exploit 到实现系统控制，全流程无需人类指导。

最极端的案例是 Mythos 找到了一个存在 27 年的休眠漏洞，并提出了利用方案。Mozilla 的 Firefox 团队在 4 月份借助 Mythos 的受控访问修复了 271 个安全漏洞，这比此前数年的总和还多。重要的是，这些能力不是专门训练出来的。

Anthropic的红队报告明确指出，网络攻击能力是通用推理和编码能力的“涌现副产品”：模型的智力到了某个阈值，就自动具备了精英级渗透测试的水平。

Anthropic做了一个在当时被广泛讨论的决定：不向公众发布 Mythos。取而代之的是一个叫 Project Glasswing的受控计划，只允许 Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase 等 11 家机构在严格监控下使用 Mythos 进行防御性漏洞修复。

Nature 在 5 月 26 日以标题《Too dangerous to release》刊发评论文章，追问一个根本性问题：当 AI 公司单方面判定某种能力“太危险不能公开”，公众和政府如何监督这个判定本身是否成立？

两个月后，Anthropic 给出的折中方案就是 Fable 5，用安全分类器把 Mythos 的能力“阉割”到可以公开的程度。

[物价飞涨的时候这样省钱购物很爽] 无评论不新闻，发表一下您的意见吧

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

从发布到"被消失" Fable 5的72小时

意见