從發布到"被消失" Fable 5的72小時
6月9日發布,6月10日被越獄,6月12日被美國政府下達出口管制禁令。Claude Fable 5的公開生命周期只有 72 小時。
這是AI行業第壹次出現模型因安全事故而觸發國家級管制行動的案例,而制造這個模型的 Anthropic,恰恰是以制定“AI 安全憲法”聞名的大模型公司。
01 Fable 5的72小時
2026年6月9日,Anthropic正式發布Claude Fable 5與Claude Mythos 5。兩者共享同壹底層模型架構,它們都被稱為Mythos級,是Anthropic的最強模型。
唯壹區別在於安全配置:Fable 5 面向所有用戶開放,內置風險分類器與安全護欄;Mythos 5 保留完整能力,僅對11家受信任機構開放。Anthropic CEO Dario Amodei將這個策略稱為“同壹基礎模型、雙檔安全配置”,聲稱經過超1000小時的外部紅隊測試,未發現通用越獄方法。
這個說法維持了不到 24 小時。6 月 10 日,知名 AI 紅隊研究者 Pliny the Liberator在社交媒體發帖宣布攻破 Fable 5的安全層,並附上截圖:模型輸出了 x86 Linux 系統棧緩沖區溢出的完整利用教程,包括關閉 ASLR、編寫含strcpy 漏洞的 C 代碼、無保護編譯的全流程指導。同時泄露的還有 Fable 5 約 12 萬字符的完整系統提示詞,這相當於 Anthropic用來約束模型行為的全部內部規則被公開攤在了 GitHub 上。
48小時後的6月12日,美國政府以國家安全為由發布出口管制指令,要求暫停所有外國公民對 Fable 5 和 Mythos 5 的訪問,甚至無論該外國公民身處美國境內還是境外,包括Anthropic自己的外籍雇員。
6 月 13 日,Anthropic在官網發布聲明,稱已遵守指令暫停服務,但他們認為這是壹個“誤解”,正在努力恢復訪問。
從發布到“被消失”,72 小時。

圖:Anthropic的官方聲明
02 Mythos,壹個被關了兩個月的模型
Fable 5的故事要從兩個月前講起。2026 年4月7日,Anthropic 紅隊在官方博客發布了 Claude Mythos Preview 的安全評估報告。報告的核心發現讓整個安全社區震動:這個模型能自主發現零日漏洞,覆蓋所有主流操作系統和瀏覽器,並自動編寫完整的利用鏈,從掃描目標到寫 exploit 到實現系統控制,全流程無需人類指導。
最極端的案例是 Mythos 找到了壹個存在 27 年的休眠漏洞,並提出了利用方案。Mozilla 的 Firefox 團隊在 4 月份借助 Mythos 的受控訪問修復了 271 個安全漏洞,這比此前數年的總和還多。重要的是,這些能力不是專門訓練出來的。
Anthropic的紅隊報告明確指出,網絡攻擊能力是通用推理和編碼能力的“湧現副產品”:模型的智力到了某個閾值,就自動具備了精英級滲透測試的水平。
Anthropic做了壹個在當時被廣泛討論的決定:不向公眾發布 Mythos。取而代之的是壹個叫 Project Glasswing的受控計劃,只允許 Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase 等 11 家機構在嚴格監控下使用 Mythos 進行防御性漏洞修復。
Nature 在 5 月 26 日以標題《Too dangerous to release》刊發評論文章,追問壹個根本性問題:當 AI 公司單方面判定某種能力“太危險不能公開”,公眾和政府如何監督這個判定本身是否成立?
兩個月後,Anthropic 給出的折中方案就是 Fable 5,用安全分類器把 Mythos 的能力“閹割”到可以公開的程度。
[加西網正招聘多名全職sales 待遇優]
還沒人說話啊,我想來說幾句
這是AI行業第壹次出現模型因安全事故而觸發國家級管制行動的案例,而制造這個模型的 Anthropic,恰恰是以制定“AI 安全憲法”聞名的大模型公司。
01 Fable 5的72小時
2026年6月9日,Anthropic正式發布Claude Fable 5與Claude Mythos 5。兩者共享同壹底層模型架構,它們都被稱為Mythos級,是Anthropic的最強模型。
唯壹區別在於安全配置:Fable 5 面向所有用戶開放,內置風險分類器與安全護欄;Mythos 5 保留完整能力,僅對11家受信任機構開放。Anthropic CEO Dario Amodei將這個策略稱為“同壹基礎模型、雙檔安全配置”,聲稱經過超1000小時的外部紅隊測試,未發現通用越獄方法。
這個說法維持了不到 24 小時。6 月 10 日,知名 AI 紅隊研究者 Pliny the Liberator在社交媒體發帖宣布攻破 Fable 5的安全層,並附上截圖:模型輸出了 x86 Linux 系統棧緩沖區溢出的完整利用教程,包括關閉 ASLR、編寫含strcpy 漏洞的 C 代碼、無保護編譯的全流程指導。同時泄露的還有 Fable 5 約 12 萬字符的完整系統提示詞,這相當於 Anthropic用來約束模型行為的全部內部規則被公開攤在了 GitHub 上。
48小時後的6月12日,美國政府以國家安全為由發布出口管制指令,要求暫停所有外國公民對 Fable 5 和 Mythos 5 的訪問,甚至無論該外國公民身處美國境內還是境外,包括Anthropic自己的外籍雇員。
6 月 13 日,Anthropic在官網發布聲明,稱已遵守指令暫停服務,但他們認為這是壹個“誤解”,正在努力恢復訪問。
從發布到“被消失”,72 小時。
圖:Anthropic的官方聲明
02 Mythos,壹個被關了兩個月的模型
Fable 5的故事要從兩個月前講起。2026 年4月7日,Anthropic 紅隊在官方博客發布了 Claude Mythos Preview 的安全評估報告。報告的核心發現讓整個安全社區震動:這個模型能自主發現零日漏洞,覆蓋所有主流操作系統和瀏覽器,並自動編寫完整的利用鏈,從掃描目標到寫 exploit 到實現系統控制,全流程無需人類指導。
最極端的案例是 Mythos 找到了壹個存在 27 年的休眠漏洞,並提出了利用方案。Mozilla 的 Firefox 團隊在 4 月份借助 Mythos 的受控訪問修復了 271 個安全漏洞,這比此前數年的總和還多。重要的是,這些能力不是專門訓練出來的。
Anthropic的紅隊報告明確指出,網絡攻擊能力是通用推理和編碼能力的“湧現副產品”:模型的智力到了某個閾值,就自動具備了精英級滲透測試的水平。
Anthropic做了壹個在當時被廣泛討論的決定:不向公眾發布 Mythos。取而代之的是壹個叫 Project Glasswing的受控計劃,只允許 Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase 等 11 家機構在嚴格監控下使用 Mythos 進行防御性漏洞修復。
Nature 在 5 月 26 日以標題《Too dangerous to release》刊發評論文章,追問壹個根本性問題:當 AI 公司單方面判定某種能力“太危險不能公開”,公眾和政府如何監督這個判定本身是否成立?
兩個月後,Anthropic 給出的折中方案就是 Fable 5,用安全分類器把 Mythos 的能力“閹割”到可以公開的程度。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
網友:中國大模型何時達到Fable級別?馬斯克回復了 |
智譜等中國大模型何時達到Fable級別水平? |
Anthropic深夜發布Claude Fable 5 屠榜所有測試 |
新鮮百分百 溫村Fable試吃體驗 (2條評論) |
推薦:



