Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_8c6b6dbc378bed3c45d1a23dc03c67de, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
谷歌 Gemini 3 深夜炸场:没有悬念的最强 AI | 温哥华地产中心
   

[谷歌] 谷歌 Gemini 3 深夜炸场:没有悬念的最强 AI

让我们先看一看代表人类智力“天花板”的测试——Humanity's Last Exam(人类最终大考)。这是一个衡量学术推理极限的标尺,GPT-5.1 在此前的测试中得分为 26.5%,Claude Sonnet 4.5 仅为 13.7%。而 Gemini 3 Pro 它直接轰出了37.5%的高分。在高端推理层面,这 10 个百分点的差距,意味着模型在处理复杂学术问题时,已经具备了完全不同的理解深度。


但这还不是极限。Google 甚至还藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情况下,它在 HLE 上的得分进一步飙升至41.0%。看起来人类最后的堡垒也并不能持续很久了。



数理方面的每一个领域,都能看出它的统治力。

AIME 2025(美国数学邀请赛):配合代码执行(Code Execution),Gemini 3 Pro 的准确率达到了惊人的100%。没错,是满分。即便是“裸考”(无工模式),它也有 95.0% 的准确率(相比之下,GPT-5.1 为 94.0%,Claude Sonnet 4.5 为 87.0%)。

MathArena Apex(数学竞赛地狱模式):

当包括 GPT-5.1 在内的其他大模型还在1%上下挣扎时,Gemini 3 Pro 直接干到了23.4%。这意味着在很多以前 AI 根本“看不懂题”的领域,Gemini 3 已经开始解题了。

而更关键的是 Agent 相关能力的提升。

Gemini 一向在多模态能力上领先,这一代更是专门优化了屏幕理解(Screen Understanding)。这是下一代 Agent 能否真正接管人类电脑的关键。

看ScreenSpot-Pro这一栏数据:

GPT-5.1:3.5%(这基本意味着它是个“瞎子”)。


Gemini 3 Pro:72.7%。

这是近乎20 倍的能力碾压!这标志着 Gemini 3 Pro 已经不再是一个单纯的对话框,它具备了真正意义上的“视觉智能”,能够像人类一样理解复杂的操作系统界面。

在一些传统强项上,Gemini 3 Pro 仍然表现出色——比如支持1M Token的超大上下文窗口、对多模态数据的“原生支持”、长视频和多语言处理等等。





[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读 更多...
    机器人"祖师爷"波士顿动力塌房! 核心CTO叛逃谷歌 挑战英伟达,谷歌有望登顶全球股市市值第一
    谷歌亚马逊"爆炸性AI获利"背后有诡?一半来自.... 中共官媒宣扬谷歌签约广州 引网民嘲讽
    AI下的谷歌:没有鬼故事,只有大丰收 五角大楼联手谷歌!Gemini获军方采用
    谷歌员工联署请愿 要求CEO拒绝承接美军机密业务 全球最大规模!Google部署"铁空气电池"
    Google地图即将迎来大规模AI升级 Google首款无屏幕"智慧手环"曝光
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站