[谷歌] 谷歌 Gemini 3 深夜炸场:没有悬念的最强 AI
让我们先看一看代表人类智力“天花板”的测试——Humanity's Last Exam(人类最终大考)。这是一个衡量学术推理极限的标尺,GPT-5.1 在此前的测试中得分为 26.5%,Claude Sonnet 4.5 仅为 13.7%。而 Gemini 3 Pro 它直接轰出了37.5%的高分。在高端推理层面,这 10 个百分点的差距,意味着模型在处理复杂学术问题时,已经具备了完全不同的理解深度。
但这还不是极限。Google 甚至还藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情况下,它在 HLE 上的得分进一步飙升至41.0%。看起来人类最后的堡垒也并不能持续很久了。

数理方面的每一个领域,都能看出它的统治力。
AIME 2025(美国数学邀请赛):配合代码执行(Code Execution),Gemini 3 Pro 的准确率达到了惊人的100%。没错,是满分。即便是“裸考”(无工模式),它也有 95.0% 的准确率(相比之下,GPT-5.1 为 94.0%,Claude Sonnet 4.5 为 87.0%)。
MathArena Apex(数学竞赛地狱模式):
当包括 GPT-5.1 在内的其他大模型还在1%上下挣扎时,Gemini 3 Pro 直接干到了23.4%。这意味着在很多以前 AI 根本“看不懂题”的领域,Gemini 3 已经开始解题了。
而更关键的是 Agent 相关能力的提升。
Gemini 一向在多模态能力上领先,这一代更是专门优化了屏幕理解(Screen Understanding)。这是下一代 Agent 能否真正接管人类电脑的关键。
看ScreenSpot-Pro这一栏数据:
GPT-5.1:3.5%(这基本意味着它是个“瞎子”)。
Gemini 3 Pro:72.7%。
这是近乎20 倍的能力碾压!这标志着 Gemini 3 Pro 已经不再是一个单纯的对话框,它具备了真正意义上的“视觉智能”,能够像人类一样理解复杂的操作系统界面。
在一些传统强项上,Gemini 3 Pro 仍然表现出色——比如支持1M Token的超大上下文窗口、对多模态数据的“原生支持”、长视频和多语言处理等等。


[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
但这还不是极限。Google 甚至还藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情况下,它在 HLE 上的得分进一步飙升至41.0%。看起来人类最后的堡垒也并不能持续很久了。

数理方面的每一个领域,都能看出它的统治力。
AIME 2025(美国数学邀请赛):配合代码执行(Code Execution),Gemini 3 Pro 的准确率达到了惊人的100%。没错,是满分。即便是“裸考”(无工模式),它也有 95.0% 的准确率(相比之下,GPT-5.1 为 94.0%,Claude Sonnet 4.5 为 87.0%)。
MathArena Apex(数学竞赛地狱模式):
当包括 GPT-5.1 在内的其他大模型还在1%上下挣扎时,Gemini 3 Pro 直接干到了23.4%。这意味着在很多以前 AI 根本“看不懂题”的领域,Gemini 3 已经开始解题了。
而更关键的是 Agent 相关能力的提升。
Gemini 一向在多模态能力上领先,这一代更是专门优化了屏幕理解(Screen Understanding)。这是下一代 Agent 能否真正接管人类电脑的关键。
看ScreenSpot-Pro这一栏数据:
GPT-5.1:3.5%(这基本意味着它是个“瞎子”)。
Gemini 3 Pro:72.7%。
这是近乎20 倍的能力碾压!这标志着 Gemini 3 Pro 已经不再是一个单纯的对话框,它具备了真正意义上的“视觉智能”,能够像人类一样理解复杂的操作系统界面。
在一些传统强项上,Gemini 3 Pro 仍然表现出色——比如支持1M Token的超大上下文窗口、对多模态数据的“原生支持”、长视频和多语言处理等等。


[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐: