你的Office被兩個AI接管了微軟默認開啟

新聞

微軟

[微軟] 你的Office被兩個AI接管了微軟默認開啟

2026-03-31 | 來源: 新智元 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

單模型時代，結束了。

剛剛，微軟把Copilot的引擎換了，在Researcher中引入多模型智能。

從此，Copilot的Researcher智能體，默認同時調用GPT和Claude。

這不是讓你手動切模型的那種“多模型”，而是GPT寫完初稿，Claude自動扮演專家評審員逐條審查，審完再交付給你。

壹個負責“沖鋒”，壹個負責“挑刺”。

微軟表示，這是Microsoft 365 Copilot深度研究代理Researcher邁出的重要壹步。

Researcher專為在工作流程中處理復雜研究而設計，這次通過兩項全新的多模型能力：“批判”（Critique）和“智囊團”（Council），進壹步提升了准確性、深度和可信度。

實測效果驚人。

在DRACO基准測試中，這套“雙模型互搏”架構綜合得分比此前壹直被視為深度研究天花板的Perplexity Deep Research（搭載Claude Opus 4.6）高出13.8%。

但這還不是全部。

同壹天上線的Copilot Cowork，微軟表示是把支撐Claude Cowork的技術平台引入了Microsoft 365 Copilot，並與Work IQ、企業權限和治理體系深度整合，讓AI能自主規劃、跨工具推進多步任務。

這已經不是“接了個API”那麼簡單，而是在把外部前沿智能體能力，納入微軟自己的工作系統。

微軟的牌面已攤開：不把賭注壓在單壹模型上，而是把Anthropic、OpenAI等前沿模型納入Copilot的多模型編排框架。

也就是說，Copilot正在從傳統AI助手，升級成壹個面向企業工作的多模型執行與編排系統。

Critique讓AI自己審自己的作業

過去的AI研究工作流有壹個結構性盲區：規劃、檢索、綜合、撰寫全部壓在壹個模型上。

讓模型既當運動員又當裁判，這樣幻覺幾乎是必然的。

微軟這次給出的解法是：把“生成”和“評估”拆成兩個獨立角色。

具體到大模型，是讓GPT負責上半場：任務規劃、迭代檢索、起草初稿；Claude負責下半場：以專家評審員的身份，基於結構化評價量表（Rubric）逐條審查。

這個量表主要聚焦叁個維度：

來源可靠性評估，審查引用是否權威、可驗證；

報告完整性，檢查是否覆蓋了用戶請求的所有意圖；

嚴格的證據溯源，要求每壹個關鍵結論都錨定到帶有精確引用的可靠來源。

更關鍵的是，審閱者的定位不是“第贰作者”，而是“同行評審”。它不替你重寫，而是逼你寫得更好。

微軟365和Copilot企業副總裁Nicole Herskowitz說：“我們不是簡單地在Copilot裡塞了多個模型，我們是讓客戶真正享受到模型協同工作的好處。”

未來這套機制還會升級為雙向互審：GPT也能審Claude的稿。

Critique已經是Researcher的默認模式，無需手動開啟。

其實，這算不上什麼技術花活，而是把學術界運行了幾百年的同行評審制度，第壹次工程化地嵌進了AI系統。

用架構設計來壓制幻覺，而不是壹味指望單個模型變得更聰明。

DRACO跑分拆解13.8%的含金量

數據不說謊。

DRACO（深度研究准確性、完整性和客觀性）是由Perplexity和學術界研究人員於2026年2月推出的基准測試，覆蓋10個領域、100項復雜研究任務，全部源自真實使用場景。

每個問題經過5次獨立運行取均值，評估維度包括事實准確性、分析廣度和深度、表達質量、引用質量肆項。

評委模型是GPT-5.2。

微軟特別強調，采用了與基准論文完全壹致的評估協議和配置，確保“同口徑”公平對比。

搭載Critique的Researcher綜合得分實現了+7.0分（SEM±1.90）的顯著提升，比此前表現最好的Perplexity Deep Research高出13.88%。

[物價飛漲的時候這樣省錢購物很爽] 好新聞沒人評論怎麼行，我來說幾句

分享:

上壹頁12 3 4 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

[微軟] 你的Office被兩個AI接管了微軟默認開啟

意見

專家專欄

工具

當前會員

[微軟] 你的Office被兩個AI接管了 微軟默認開啟

意見

[微軟] 你的Office被兩個AI接管了微軟默認開啟