[微軟] 你的Office被兩個AI接管了 微軟默認開啟

剛剛,微軟把Copilot的引擎換了,在Researcher中引入多模型智能。
從此,Copilot的Researcher智能體,默認同時調用GPT和Claude。
這不是讓你手動切模型的那種“多模型”,而是GPT寫完初稿,Claude自動扮演專家評審員逐條審查,審完再交付給你。
壹個負責“沖鋒”,壹個負責“挑刺”。
微軟表示,這是Microsoft 365 Copilot深度研究代理Researcher邁出的重要壹步。
Researcher專為在工作流程中處理復雜研究而設計,這次通過兩項全新的多模型能力:“批判”(Critique)和“智囊團”(Council),進壹步提升了准確性、深度和可信度。
實測效果驚人。
在DRACO基准測試中,這套“雙模型互搏”架構綜合得分比此前壹直被視為深度研究天花板的Perplexity Deep Research(搭載Claude Opus 4.6)高出13.8%。
但這還不是全部。
同壹天上線的Copilot Cowork,微軟表示是把支撐Claude Cowork的技術平台引入了Microsoft 365 Copilot,並與Work IQ、企業權限和治理體系深度整合,讓AI能自主規劃、跨工具推進多步任務。
這已經不是“接了個API”那麼簡單,而是在把外部前沿智能體能力,納入微軟自己的工作系統。
微軟的牌面已攤開:不把賭注壓在單壹模型上,而是把Anthropic、OpenAI等前沿模型納入Copilot的多模型編排框架。
也就是說,Copilot正在從傳統AI助手,升級成壹個面向企業工作的多模型執行與編排系統。
Critique讓AI自己審自己的作業
過去的AI研究工作流有壹個結構性盲區:規劃、檢索、綜合、撰寫全部壓在壹個模型上。
讓模型既當運動員又當裁判,這樣幻覺幾乎是必然的。
微軟這次給出的解法是:把“生成”和“評估”拆成兩個獨立角色。
具體到大模型,是讓GPT負責上半場:任務規劃、迭代檢索、起草初稿;Claude負責下半場:以專家評審員的身份,基於結構化評價量表(Rubric)逐條審查。
這個量表主要聚焦叁個維度:
來源可靠性評估,審查引用是否權威、可驗證;
報告完整性,檢查是否覆蓋了用戶請求的所有意圖;
嚴格的證據溯源,要求每壹個關鍵結論都錨定到帶有精確引用的可靠來源。
更關鍵的是,審閱者的定位不是“第贰作者”,而是“同行評審”。它不替你重寫,而是逼你寫得更好。
微軟365和Copilot企業副總裁Nicole Herskowitz說:“我們不是簡單地在Copilot裡塞了多個模型,我們是讓客戶真正享受到模型協同工作的好處。”
未來這套機制還會升級為雙向互審:GPT也能審Claude的稿。
Critique已經是Researcher的默認模式,無需手動開啟。
其實,這算不上什麼技術花活,而是把學術界運行了幾百年的同行評審制度,第壹次工程化地嵌進了AI系統。
用架構設計來壓制幻覺,而不是壹味指望單個模型變得更聰明。
DRACO跑分拆解13.8%的含金量
數據不說謊。
DRACO(深度研究准確性、完整性和客觀性)是由Perplexity和學術界研究人員於2026年2月推出的基准測試,覆蓋10個領域、100項復雜研究任務,全部源自真實使用場景。
每個問題經過5次獨立運行取均值,評估維度包括事實准確性、分析廣度和深度、表達質量、引用質量肆項。
評委模型是GPT-5.2。
微軟特別強調,采用了與基准論文完全壹致的評估協議和配置,確保“同口徑”公平對比。
搭載Critique的Researcher綜合得分實現了+7.0分(SEM±1.90)的顯著提升,比此前表現最好的Perplexity Deep Research高出13.88%。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦: