[微软] 你的Office被两个AI接管了 微软默认开启

DRACO基准测试综合得分对比图:各深度研究系统(含Researcher with Critique、Perplexity Deep Research等)横向得分对比。其中除Researcher with Critique外,其余对比结果引自Zhong et al., arXiv:2602.11685。
拆开四个维度看:
分析广度和深度提升最明显,+3.33。其次是表达质量+3.04,事实准确性+2.58。引用质量同样有提升。
所有维度均达到统计学显著(配对t检验,p
真正值得注意的是那个+3.33。分析深度的飙升说明Critique最大的价值不是纠错,而是可以逼出更全面的分析视角。
在领域层面,10个领域中有8个观察到显著提升,覆盖医学、技术、法律等核心场景。
仅有的两个例外是“学术”和“大海捞针”,这两个领域测试结果波动较大。

DRACO基准四项评测维度提升表:Researcher with Critique(多模型)相较单模型 Researcher,在分析广度与深度、呈现质量、事实准确性和引用质量上的提升,以及各项对最终总分的贡献。
13.8%听起来是一个数字。
在深度研究这个赛道上,此前各家打得难分难解,Perplexity搭载Claude Opus 4.6好不容易爬到的天花板,现在被Critique一个架构创新直接击穿了。
当你需要的不是一个答案,而是一场辩论
Critique解决的是“怎么让一份报告更准”的问题。
但有些场景,你要的根本不是一份精修稿,而是两个专家吵一架。
而这,就是Council的定位。
在模型选择器中选“Model Council”,GPT和Claude会各自独立生成一份完整报告,并排展示。
然后,一个专门的评委模型会对两份报告进行评估,生成一份综述(Cover Letter),深入分析双方在哪些观点上达成一致、在何处存在分歧,以及各自带来的独特见解。

[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐:



