从发布到"被消失" Fable 5的72小时
6月9日发布,6月10日被越狱,6月12日被美国政府下达出口管制禁令。Claude Fable 5的公开生命周期只有 72 小时。
这是AI行业第一次出现模型因安全事故而触发国家级管制行动的案例,而制造这个模型的 Anthropic,恰恰是以制定“AI 安全宪法”闻名的大模型公司。
01 Fable 5的72小时
2026年6月9日,Anthropic正式发布Claude Fable 5与Claude Mythos 5。两者共享同一底层模型架构,它们都被称为Mythos级,是Anthropic的最强模型。
唯一区别在于安全配置:Fable 5 面向所有用户开放,内置风险分类器与安全护栏;Mythos 5 保留完整能力,仅对11家受信任机构开放。Anthropic CEO Dario Amodei将这个策略称为“同一基础模型、双档安全配置”,声称经过超1000小时的外部红队测试,未发现通用越狱方法。
这个说法维持了不到 24 小时。6 月 10 日,知名 AI 红队研究者 Pliny the Liberator在社交媒体发帖宣布攻破 Fable 5的安全层,并附上截图:模型输出了 x86 Linux 系统栈缓冲区溢出的完整利用教程,包括关闭 ASLR、编写含strcpy 漏洞的 C 代码、无保护编译的全流程指导。同时泄露的还有 Fable 5 约 12 万字符的完整系统提示词,这相当于 Anthropic用来约束模型行为的全部内部规则被公开摊在了 GitHub 上。
48小时后的6月12日,美国政府以国家安全为由发布出口管制指令,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问,甚至无论该外国公民身处美国境内还是境外,包括Anthropic自己的外籍雇员。
6 月 13 日,Anthropic在官网发布声明,称已遵守指令暂停服务,但他们认为这是一个“误解”,正在努力恢复访问。
从发布到“被消失”,72 小时。

图:Anthropic的官方声明
02 Mythos,一个被关了两个月的模型
Fable 5的故事要从两个月前讲起。2026 年4月7日,Anthropic 红队在官方博客发布了 Claude Mythos Preview 的安全评估报告。报告的核心发现让整个安全社区震动:这个模型能自主发现零日漏洞,覆盖所有主流操作系统和浏览器,并自动编写完整的利用链,从扫描目标到写 exploit 到实现系统控制,全流程无需人类指导。
最极端的案例是 Mythos 找到了一个存在 27 年的休眠漏洞,并提出了利用方案。Mozilla 的 Firefox 团队在 4 月份借助 Mythos 的受控访问修复了 271 个安全漏洞,这比此前数年的总和还多。重要的是,这些能力不是专门训练出来的。
Anthropic的红队报告明确指出,网络攻击能力是通用推理和编码能力的“涌现副产品”:模型的智力到了某个阈值,就自动具备了精英级渗透测试的水平。
Anthropic做了一个在当时被广泛讨论的决定:不向公众发布 Mythos。取而代之的是一个叫 Project Glasswing的受控计划,只允许 Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase 等 11 家机构在严格监控下使用 Mythos 进行防御性漏洞修复。
Nature 在 5 月 26 日以标题《Too dangerous to release》刊发评论文章,追问一个根本性问题:当 AI 公司单方面判定某种能力“太危险不能公开”,公众和政府如何监督这个判定本身是否成立?
两个月后,Anthropic 给出的折中方案就是 Fable 5,用安全分类器把 Mythos 的能力“阉割”到可以公开的程度。
[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
这是AI行业第一次出现模型因安全事故而触发国家级管制行动的案例,而制造这个模型的 Anthropic,恰恰是以制定“AI 安全宪法”闻名的大模型公司。
01 Fable 5的72小时
2026年6月9日,Anthropic正式发布Claude Fable 5与Claude Mythos 5。两者共享同一底层模型架构,它们都被称为Mythos级,是Anthropic的最强模型。
唯一区别在于安全配置:Fable 5 面向所有用户开放,内置风险分类器与安全护栏;Mythos 5 保留完整能力,仅对11家受信任机构开放。Anthropic CEO Dario Amodei将这个策略称为“同一基础模型、双档安全配置”,声称经过超1000小时的外部红队测试,未发现通用越狱方法。
这个说法维持了不到 24 小时。6 月 10 日,知名 AI 红队研究者 Pliny the Liberator在社交媒体发帖宣布攻破 Fable 5的安全层,并附上截图:模型输出了 x86 Linux 系统栈缓冲区溢出的完整利用教程,包括关闭 ASLR、编写含strcpy 漏洞的 C 代码、无保护编译的全流程指导。同时泄露的还有 Fable 5 约 12 万字符的完整系统提示词,这相当于 Anthropic用来约束模型行为的全部内部规则被公开摊在了 GitHub 上。
48小时后的6月12日,美国政府以国家安全为由发布出口管制指令,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问,甚至无论该外国公民身处美国境内还是境外,包括Anthropic自己的外籍雇员。
6 月 13 日,Anthropic在官网发布声明,称已遵守指令暂停服务,但他们认为这是一个“误解”,正在努力恢复访问。
从发布到“被消失”,72 小时。
图:Anthropic的官方声明
02 Mythos,一个被关了两个月的模型
Fable 5的故事要从两个月前讲起。2026 年4月7日,Anthropic 红队在官方博客发布了 Claude Mythos Preview 的安全评估报告。报告的核心发现让整个安全社区震动:这个模型能自主发现零日漏洞,覆盖所有主流操作系统和浏览器,并自动编写完整的利用链,从扫描目标到写 exploit 到实现系统控制,全流程无需人类指导。
最极端的案例是 Mythos 找到了一个存在 27 年的休眠漏洞,并提出了利用方案。Mozilla 的 Firefox 团队在 4 月份借助 Mythos 的受控访问修复了 271 个安全漏洞,这比此前数年的总和还多。重要的是,这些能力不是专门训练出来的。
Anthropic的红队报告明确指出,网络攻击能力是通用推理和编码能力的“涌现副产品”:模型的智力到了某个阈值,就自动具备了精英级渗透测试的水平。
Anthropic做了一个在当时被广泛讨论的决定:不向公众发布 Mythos。取而代之的是一个叫 Project Glasswing的受控计划,只允许 Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase 等 11 家机构在严格监控下使用 Mythos 进行防御性漏洞修复。
Nature 在 5 月 26 日以标题《Too dangerous to release》刊发评论文章,追问一个根本性问题:当 AI 公司单方面判定某种能力“太危险不能公开”,公众和政府如何监督这个判定本身是否成立?
两个月后,Anthropic 给出的折中方案就是 Fable 5,用安全分类器把 Mythos 的能力“阉割”到可以公开的程度。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
Fable 5解禁,Anthropic同步发Sonnet 5模型抢人 |
网友:中国大模型何时达到Fable级别?马斯克回复了 |
智谱等中国大模型何时达到Fable级别水平? |
Anthropic深夜发布Claude Fable 5 屠榜所有测试 |
新鲜百分百 温村Fable试吃体验 (2条评论) |
推荐:
从发布到"被消失" Fable 5的72小时