你的Office被两个AI接管了微软默认开启

[微软] 你的Office被两个AI接管了微软默认开启

2026-03-31 | 来源: 新智元 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

DRACO基准测试综合得分对比图：各深度研究系统（含Researcher with Critique、Perplexity Deep Research等）横向得分对比。其中除Researcher with Critique外，其余对比结果引自Zhong et al., arXiv:2602.11685。

拆开四个维度看：

分析广度和深度提升最明显，+3.33。其次是表达质量+3.04，事实准确性+2.58。引用质量同样有提升。

所有维度均达到统计学显著（配对t检验，p

真正值得注意的是那个+3.33。分析深度的飙升说明Critique最大的价值不是纠错，而是可以逼出更全面的分析视角。

在领域层面，10个领域中有8个观察到显著提升，覆盖医学、技术、法律等核心场景。

仅有的两个例外是“学术”和“大海捞针”，这两个领域测试结果波动较大。

DRACO基准四项评测维度提升表：Researcher with Critique（多模型）相较单模型 Researcher，在分析广度与深度、呈现质量、事实准确性和引用质量上的提升，以及各项对最终总分的贡献。

13.8%听起来是一个数字。

在深度研究这个赛道上，此前各家打得难分难解，Perplexity搭载Claude Opus 4.6好不容易爬到的天花板，现在被Critique一个架构创新直接击穿了。

当你需要的不是一个答案，而是一场辩论

Critique解决的是“怎么让一份报告更准”的问题。

但有些场景，你要的根本不是一份精修稿，而是两个专家吵一架。

而这，就是Council的定位。

在模型选择器中选“Model Council”，GPT和Claude会各自独立生成一份完整报告，并排展示。

然后，一个专门的评委模型会对两份报告进行评估，生成一份综述（Cover Letter），深入分析双方在哪些观点上达成一致、在何处存在分歧，以及各自带来的独特见解。