Anthropic深夜发布Claude Fable 5 屠榜所有测试


知识工作:金融分析接近满分
在 Hebbia 的金融基准测试上(考察高级别推理能力),Fable 5 得分高于所有模型,在基于文档的推理、图表与表格解读、问题解决等方面均有大幅提升。
IMC(国际市场商品公司)表示,Fable 5 在他们的交易分析评测中几乎全部拿到了优秀,包括事实查询、概念推理、根因分析和期望值分析。
视觉:靠截图还原代码,通关宝可梦
视觉能力方面,Fable 5 同样跻身当前最先进水平。
它能从复杂的科学图表中精确提取数据,甚至可以仅凭截图重建一个网页应用的源代码。更值得一提的是,它需要的辅助工具更少了。
此前的 Claude 模型即便配备了额外辅助工具,玩《宝可梦:火红》依然力不从心。而 Fable 5 只依靠原始游戏截图(没有地图、没有导航辅助、没有额外游戏状态信息),就从头到尾通关了这款游戏。
记忆与长文本:持久记忆让表现提升三倍
在长时间运行的任务中,Fable 5 能在数百万 token 的范围内保持专注,并借助自己的笔记不断优化输出。
在卡牌构筑游戏《杀戮尖塔》的测试中,为模型提供持久文件记忆后,Fable 5 的表现提升幅度是 Opus 4.8 的三倍;Fable 到达游戏最终章的频率,也是 Opus 4.8 的三倍。
Claude Fable 5可以从物理第一性原理出发建立太阳系模拟,并以此预测日食
药物设计:速度提升十倍
Mythos 5 专属能力中,最令人震惊的是药物设计。
Anthropic 内部的蛋白质设计专家使用 Mythos 5 后,药物设计流程的部分环节加速了约十倍。在一项测试中,Mythos 5 在配备蛋白质设计和生物信息学工具但无人类协助的情况下,表现与经验丰富的人类专家相当,甚至更好。
它完成了科学家通常需要独立承担的全部工作:选择结合位点、选择和运行蛋白质设计工具、在失败时自主纠错。
研究中涉及的 14 个蛋白质靶点里,有 9 个产生了强有力的候选药物,目前正在进一步研究中。

[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:



