谷歌 Gemini 3 深夜炸场:没有悬念的最强 AI

[谷歌] 谷歌 Gemini 3 深夜炸场:没有悬念的最强 AI

2025-11-20 | 来源: Li Yuan | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

让我们先看一看代表人类智力“天花板”的测试——Humanity's Last Exam（人类最终大考）。这是一个衡量学术推理极限的标尺，GPT-5.1 在此前的测试中得分为 26.5%，Claude Sonnet 4.5 仅为 13.7%。而 Gemini 3 Pro 它直接轰出了37.5%的高分。在高端推理层面，这 10 个百分点的差距，意味着模型在处理复杂学术问题时，已经具备了完全不同的理解深度。

但这还不是极限。Google 甚至还藏了一手Gemini 3 Deep Think（深度推理模式），在不使用任何工具的情况下，它在 HLE 上的得分进一步飙升至41.0%。看起来人类最后的堡垒也并不能持续很久了。

数理方面的每一个领域，都能看出它的统治力。

AIME 2025（美国数学邀请赛）：配合代码执行（Code Execution），Gemini 3 Pro 的准确率达到了惊人的100%。没错，是满分。即便是“裸考”（无工模式），它也有 95.0% 的准确率（相比之下，GPT-5.1 为 94.0%，Claude Sonnet 4.5 为 87.0%）。

MathArena Apex（数学竞赛地狱模式）：

当包括 GPT-5.1 在内的其他大模型还在1%上下挣扎时，Gemini 3 Pro 直接干到了23.4%。这意味着在很多以前 AI 根本“看不懂题”的领域，Gemini 3 已经开始解题了。

而更关键的是 Agent 相关能力的提升。

Gemini 一向在多模态能力上领先，这一代更是专门优化了屏幕理解（Screen Understanding）。这是下一代 Agent 能否真正接管人类电脑的关键。

看ScreenSpot-Pro这一栏数据：

GPT-5.1：3.5%（这基本意味着它是个“瞎子”）。

Gemini 3 Pro：72.7%。

这是近乎20 倍的能力碾压！这标志着 Gemini 3 Pro 已经不再是一个单纯的对话框，它具备了真正意义上的“视觉智能”，能够像人类一样理解复杂的操作系统界面。

在一些传统强项上，Gemini 3 Pro 仍然表现出色——比如支持1M Token的超大上下文窗口、对多模态数据的“原生支持”、长视频和多语言处理等等。

[物价飞涨的时候这样省钱购物很爽] 无评论不新闻，发表一下您的意见吧

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

[谷歌] 谷歌 Gemini 3 深夜炸场:没有悬念的最强 AI

意见