Anthropic深夜發布Claude Fable 5 屠榜所有測試

2026-06-09 | 來源: AI寒武紀 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

分子生物學假說：80% 的情況下，科學家更偏向 Mythos

Mythos 5 是 Anthropic 第壹個能持續產出有新意、令人信服的科學假說的模型。

在與 Opus 級別模型的盲測比較中，Anthropic 的科學家有約 80% 的時間更傾向 Mythos 5 提出的分子生物學假說，部分假說已推進到實驗驗證階段。與此同時，Mythos 5 提出的壹個關於大腸杆菌蛋白質新機制的假說，已被另壹個獨立開展同壹課題研究的實驗室的論文所印證。

基因組學研究：自主工作壹周，超越 Science 發文模型

Mythos 5 在超過壹周的基本自主工作中開展了原創基因組學研究。

它整合了跨越 138 個動物物種、數百萬個細胞的單細胞數據，設計並訓練了壹個定制機器學習模型，用於識別親緣關系較遠的生物體中承擔相同功能的細胞。

僅有高層次人工指導的情況下，Mythos 5 訓練出的模型超越了近期發表於《Science》期刊的壹個模型，而參數量只有後者的百分之壹。相關結果預計將在未來幾個月內發表。

對齊表現：與 Opus 4.8 持平

在自動化對齊評估中，Mythos 5 表現出的失准行為（包括欺騙、配合用戶濫用模型等）處於較低水平，與 Opus 4.8 相當。由於 Fable 5 與 Mythos 5 是同壹個底層模型，Fable 5 的對齊水平也大致相同。

Fable 5 的叁重安全護欄

這是A廠壹貫的調性，A廠認為發布如此強大的模型伴隨著風險，沒有安全措施的話，Fable 5 在網絡安全等領域的能力可能被濫用，造成嚴重破壞。

為此，Anthropic 為 Fable 5 設置了叁道安全分類器護欄。當某個請求觸發護欄時，系統會自動轉由 Claude Opus 4.8 來響應（而不是直接拒絕），用戶也會被告知發生了轉發。目前數據顯示，超過 95% 的 Fable 5 會話沒有觸發任何轉發。

第壹道護欄：網絡安全

Mythos 級別的模型在發現和利用軟件漏洞方面表現卓越，並具備完整的"代理式黑客攻擊"能力，包括偵察、發現、橫向移動等多個攻擊環節。Fable 5 的網絡安全分類器覆蓋了漏洞利用和更廣泛的進攻性網絡任務。

Anthropic 對分類器進行了大量紅隊測試，並委托外部機構進行漏洞懸賞測試。超過 1000 小時的測試未發現任何通用越獄方法。外部紅隊機構在長周期代理任務上也未找到通用越獄，盡管英國 AI 安全研究所在有限的初始測試窗口內取得了壹定進展。

壹位外部合作伙伴的測試結論是：Fable 5 的有害網絡查詢防護是所有被測模型中最強的，對 30 種公開越獄技術均不受影響，有害單輪請求的響應率為零。

[物價飛漲的時候這樣省錢購物很爽] 無評論不新聞，發表壹下您的意見吧

分享:

上壹頁 1 234 5 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

Anthropic深夜發布Claude Fable 5 屠榜所有測試

意見