Anthropic深夜發布Claude Fable 5 屠榜所有測試


知識工作:金融分析接近滿分
在 Hebbia 的金融基准測試上(考察高級別推理能力),Fable 5 得分高於所有模型,在基於文檔的推理、圖表與表格解讀、問題解決等方面均有大幅提升。
IMC(國際市場商品公司)表示,Fable 5 在他們的交易分析評測中幾乎全部拿到了優秀,包括事實查詢、概念推理、根因分析和期望值分析。
視覺:靠截圖還原代碼,通關寶可夢
視覺能力方面,Fable 5 同樣躋身當前最先進水平。
它能從復雜的科學圖表中精確提取數據,甚至可以僅憑截圖重建壹個網頁應用的源代碼。更值得壹提的是,它需要的輔助工具更少了。
此前的 Claude 模型即便配備了額外輔助工具,玩《寶可夢:火紅》依然力不從心。而 Fable 5 只依靠原始游戲截圖(沒有地圖、沒有導航輔助、沒有額外游戲狀態信息),就從頭到尾通關了這款游戲。
記憶與長文本:持久記憶讓表現提升叁倍
在長時間運行的任務中,Fable 5 能在數百萬 token 的范圍內保持專注,並借助自己的筆記不斷優化輸出。
在卡牌構築游戲《殺戮尖塔》的測試中,為模型提供持久文件記憶後,Fable 5 的表現提升幅度是 Opus 4.8 的叁倍;Fable 到達游戲最終章的頻率,也是 Opus 4.8 的叁倍。
Claude Fable 5可以從物理第壹性原理出發建立太陽系模擬,並以此預測日食
藥物設計:速度提升拾倍
Mythos 5 專屬能力中,最令人震驚的是藥物設計。
Anthropic 內部的蛋白質設計專家使用 Mythos 5 後,藥物設計流程的部分環節加速了約拾倍。在壹項測試中,Mythos 5 在配備蛋白質設計和生物信息學工具但無人類協助的情況下,表現與經驗豐富的人類專家相當,甚至更好。
它完成了科學家通常需要獨立承擔的全部工作:選擇結合位點、選擇和運行蛋白質設計工具、在失敗時自主糾錯。
研究中涉及的 14 個蛋白質靶點裡,有 9 個產生了強有力的候選藥物,目前正在進壹步研究中。

[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



