Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_308e2df3f4232ad08e1c5ca6c7314ec4, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
谷歌要重奪王座:Gemini 3.1 Pro發布 | 溫哥華教育中心
   

[谷歌] 谷歌要重奪王座:Gemini 3.1 Pro發布

Gemini 3.1 Pro的得分在各項標准測試中均碾壓同類競品


Gemini 3 Pro之前的得分是31.1%,而Gemini 3.1 Pro壹口氣沖到了77.1%。谷歌DeepMind的老板戴密斯·哈薩比斯(Demis Hassabis)也特地發文說,這標志著模型在核心推理和問題解決能力上有了重大改進。

但真正的殺手鑭,還不是得分。Gemini 3.1 Pro這次引入了壹個“叁級思考”模式——低、中、高。你可以把它理解為給模型裝了壹個可以調節的“算力旋鈕”。簡單說,就是用戶可以根據任務難度,自己決定讓模型花多少時間思考。

之前的Gemini 3 Pro只有兩檔:低和高。這次Gemini 3.1 Pro在中間加了壹檔,同時調整了“高”模式的含義。調到高的時候,模型會進入類似Deep Think的狀態。Deep Think是谷歌上周更新的推理模型,特點是花更多時間處理復雜問題。現在Gemini 3.1 Pro自己就能做這件事,不用單獨切換。

這個功能主要解決壹個實際問題。以前開發者處理不同難度的任務,往往需要准備多個模型,簡單對話用壹個,復雜推理用另壹個。接口不同,計費不同,還得自己寫邏輯判斷該調用哪個。時間長了,這套東西維護起來比較麻煩。

現在壹個模型就夠了。常規任務用低檔,可以快速返回;復雜任務用高檔,讓它多花點時間處理。不用來回切換,也不用維護多個模型。

02 “搶王座”,跑分大比分獲勝

既然是來“搶王座”的,就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6這些老對手掰掰手腕。

從紙面數據看,Gemini 3.1 Pro這次確實挺能打。Artificial Analysis的智能指數測試裡,它在10項評估中拿下了6項第壹,包括Terminal-Bench Hard(編碼)、GPQA Diamond(科學知識)和Humanity's Last Exam(推理知識)。



在Artificial Analysis的智能指數測試中,Gemini 3.1 Pro吊打對手


尤其在測試模型是否“不懂裝懂”的AA-Omniscience幻覺率上,Gemini 3.1 Pro比前代狂降了38個百分點,這意味著它現在更清楚自己“不知道什麼”,而不是瞎編壹通。



在AA-Omniscience測試中,Gemini 3.1 Pro幻覺率大幅下降

在壹項針對研究級物理推理問題的CritPt測試中,Gemini 3.1 Pro更是拿下了18%的分數,比第贰名的模型高出5個百分點以上。Artificial Analysis對此評價稱,這表明谷歌這次在底層智能上確實下了狠功夫。

不過,AI圈的競爭從來不只是“考高分”。在更貼近用戶體驗的Arena排行榜上,情況就沒那麼壹邊倒了。這個榜單靠用戶給不同模型的回答投票排名,比的不是邏輯對錯,而是誰的回答看起來更“順眼”。目前,在純文本任務上,Claude Opus 4.6依然領先Gemini 3.1 Pro 4分,在代碼任務上,Opus系列和GPT-5.2也還保持著微弱優勢。

[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀 更多...
    谷歌員工聯署請願 要求CEO拒絕承接美軍機密業務 全球最大規模!Google部署"鐵空氣電池"
    Google地圖即將迎來大規模AI升級 Google首款無屏幕"智慧手環"曝光
    Google全新PC電腦設計首度曝光(圖 網友發現 Google地圖壹片紅通通 壹票人嚇壞
    谷歌拿出壓箱底技術,中國開源模型即將迎戰? 9分鍾內破解比特幣,谷歌拒絕公布技術細節
    砸崩全球存儲股後 谷歌再發"技術澄清" 谷歌再發"技術澄清",砸崩全球存儲股的論文陷爭議
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站