[谷歌] 谷歌 Gemini 3 深夜炸場:沒有懸念的最強 AI
讓我們先看壹看代表人類智力“天花板”的測試——Humanity's Last Exam(人類最終大考)。這是壹個衡量學術推理極限的標尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復雜學術問題時,已經具備了完全不同的理解深度。
但這還不是極限。Google 甚至還藏了壹手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進壹步飆升至41.0%。看起來人類最後的堡壘也並不能持續很久了。

數理方面的每壹個領域,都能看出它的統治力。
AIME 2025(美國數學邀請賽):配合代碼執行(Code Execution),Gemini 3 Pro 的准確率達到了驚人的100%。沒錯,是滿分。即便是“裸考”(無工模式),它也有 95.0% 的准確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。
MathArena Apex(數學競賽地獄模式):
當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接幹到了23.4%。這意味著在很多以前 AI 根本“看不懂題”的領域,Gemini 3 已經開始解題了。
而更關鍵的是 Agent 相關能力的提升。
Gemini 壹向在多模態能力上領先,這壹代更是專門優化了屏幕理解(Screen Understanding)。這是下壹代 Agent 能否真正接管人類電腦的關鍵。
看ScreenSpot-Pro這壹欄數據:
GPT-5.1:3.5%(這基本意味著它是個“瞎子”)。
Gemini 3 Pro:72.7%。
這是近乎20 倍的能力碾壓!這標志著 Gemini 3 Pro 已經不再是壹個單純的對話框,它具備了真正意義上的“視覺智能”,能夠像人類壹樣理解復雜的操作系統界面。
在壹些傳統強項上,Gemini 3 Pro 仍然表現出色——比如支持1M Token的超大上下文窗口、對多模態數據的“原生支持”、長視頻和多語言處理等等。


[物價飛漲的時候 這樣省錢購物很爽]
這條新聞還沒有人評論喔,等著您的高見呢
但這還不是極限。Google 甚至還藏了壹手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進壹步飆升至41.0%。看起來人類最後的堡壘也並不能持續很久了。

數理方面的每壹個領域,都能看出它的統治力。
AIME 2025(美國數學邀請賽):配合代碼執行(Code Execution),Gemini 3 Pro 的准確率達到了驚人的100%。沒錯,是滿分。即便是“裸考”(無工模式),它也有 95.0% 的准確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。
MathArena Apex(數學競賽地獄模式):
當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接幹到了23.4%。這意味著在很多以前 AI 根本“看不懂題”的領域,Gemini 3 已經開始解題了。
而更關鍵的是 Agent 相關能力的提升。
Gemini 壹向在多模態能力上領先,這壹代更是專門優化了屏幕理解(Screen Understanding)。這是下壹代 Agent 能否真正接管人類電腦的關鍵。
看ScreenSpot-Pro這壹欄數據:
GPT-5.1:3.5%(這基本意味著它是個“瞎子”)。
Gemini 3 Pro:72.7%。
這是近乎20 倍的能力碾壓!這標志著 Gemini 3 Pro 已經不再是壹個單純的對話框,它具備了真正意義上的“視覺智能”,能夠像人類壹樣理解復雜的操作系統界面。
在壹些傳統強項上,Gemini 3 Pro 仍然表現出色——比如支持1M Token的超大上下文窗口、對多模態數據的“原生支持”、長視頻和多語言處理等等。


[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦: