Anthropic深夜發布Claude Fable 5 屠榜所有測試
分子生物學假說:80% 的情況下,科學家更偏向 Mythos
Mythos 5 是 Anthropic 第壹個能持續產出有新意、令人信服的科學假說的模型。
在與 Opus 級別模型的盲測比較中,Anthropic 的科學家有約 80% 的時間更傾向 Mythos 5 提出的分子生物學假說,部分假說已推進到實驗驗證階段。與此同時,Mythos 5 提出的壹個關於大腸杆菌蛋白質新機制的假說,已被另壹個獨立開展同壹課題研究的實驗室的論文所印證。
基因組學研究:自主工作壹周,超越 Science 發文模型
Mythos 5 在超過壹周的基本自主工作中開展了原創基因組學研究。
它整合了跨越 138 個動物物種、數百萬個細胞的單細胞數據,設計並訓練了壹個定制機器學習模型,用於識別親緣關系較遠的生物體中承擔相同功能的細胞。
僅有高層次人工指導的情況下,Mythos 5 訓練出的模型超越了近期發表於《Science》期刊的壹個模型,而參數量只有後者的百分之壹。相關結果預計將在未來幾個月內發表。
對齊表現:與 Opus 4.8 持平
在自動化對齊評估中,Mythos 5 表現出的失准行為(包括欺騙、配合用戶濫用模型等)處於較低水平,與 Opus 4.8 相當。由於 Fable 5 與 Mythos 5 是同壹個底層模型,Fable 5 的對齊水平也大致相同。

Fable 5 的叁重安全護欄
這是A廠壹貫的調性,A廠認為發布如此強大的模型伴隨著風險,沒有安全措施的話,Fable 5 在網絡安全等領域的能力可能被濫用,造成嚴重破壞。
為此,Anthropic 為 Fable 5 設置了叁道安全分類器護欄。當某個請求觸發護欄時,系統會自動轉由 Claude Opus 4.8 來響應(而不是直接拒絕),用戶也會被告知發生了轉發。目前數據顯示,超過 95% 的 Fable 5 會話沒有觸發任何轉發。
第壹道護欄:網絡安全
Mythos 級別的模型在發現和利用軟件漏洞方面表現卓越,並具備完整的"代理式黑客攻擊"能力,包括偵察、發現、橫向移動等多個攻擊環節。Fable 5 的網絡安全分類器覆蓋了漏洞利用和更廣泛的進攻性網絡任務。
Anthropic 對分類器進行了大量紅隊測試,並委托外部機構進行漏洞懸賞測試。超過 1000 小時的測試未發現任何通用越獄方法。外部紅隊機構在長周期代理任務上也未找到通用越獄,盡管英國 AI 安全研究所在有限的初始測試窗口內取得了壹定進展。
壹位外部合作伙伴的測試結論是:Fable 5 的有害網絡查詢防護是所有被測模型中最強的,對 30 種公開越獄技術均不受影響,有害單輪請求的響應率為零。

[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
Mythos 5 是 Anthropic 第壹個能持續產出有新意、令人信服的科學假說的模型。
在與 Opus 級別模型的盲測比較中,Anthropic 的科學家有約 80% 的時間更傾向 Mythos 5 提出的分子生物學假說,部分假說已推進到實驗驗證階段。與此同時,Mythos 5 提出的壹個關於大腸杆菌蛋白質新機制的假說,已被另壹個獨立開展同壹課題研究的實驗室的論文所印證。
基因組學研究:自主工作壹周,超越 Science 發文模型
Mythos 5 在超過壹周的基本自主工作中開展了原創基因組學研究。
它整合了跨越 138 個動物物種、數百萬個細胞的單細胞數據,設計並訓練了壹個定制機器學習模型,用於識別親緣關系較遠的生物體中承擔相同功能的細胞。
僅有高層次人工指導的情況下,Mythos 5 訓練出的模型超越了近期發表於《Science》期刊的壹個模型,而參數量只有後者的百分之壹。相關結果預計將在未來幾個月內發表。
對齊表現:與 Opus 4.8 持平
在自動化對齊評估中,Mythos 5 表現出的失准行為(包括欺騙、配合用戶濫用模型等)處於較低水平,與 Opus 4.8 相當。由於 Fable 5 與 Mythos 5 是同壹個底層模型,Fable 5 的對齊水平也大致相同。

Fable 5 的叁重安全護欄
這是A廠壹貫的調性,A廠認為發布如此強大的模型伴隨著風險,沒有安全措施的話,Fable 5 在網絡安全等領域的能力可能被濫用,造成嚴重破壞。
為此,Anthropic 為 Fable 5 設置了叁道安全分類器護欄。當某個請求觸發護欄時,系統會自動轉由 Claude Opus 4.8 來響應(而不是直接拒絕),用戶也會被告知發生了轉發。目前數據顯示,超過 95% 的 Fable 5 會話沒有觸發任何轉發。
第壹道護欄:網絡安全
Mythos 級別的模型在發現和利用軟件漏洞方面表現卓越,並具備完整的"代理式黑客攻擊"能力,包括偵察、發現、橫向移動等多個攻擊環節。Fable 5 的網絡安全分類器覆蓋了漏洞利用和更廣泛的進攻性網絡任務。
Anthropic 對分類器進行了大量紅隊測試,並委托外部機構進行漏洞懸賞測試。超過 1000 小時的測試未發現任何通用越獄方法。外部紅隊機構在長周期代理任務上也未找到通用越獄,盡管英國 AI 安全研究所在有限的初始測試窗口內取得了壹定進展。
壹位外部合作伙伴的測試結論是:Fable 5 的有害網絡查詢防護是所有被測模型中最強的,對 30 種公開越獄技術均不受影響,有害單輪請求的響應率為零。

[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



