[谷歌] 谷歌 Gemini 3 深夜炸場:沒有懸念的最強 AI
來了。
預熱了快壹個月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續上線Google的各項產品中。
沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓。
按照 Google 披露的測試數據,Gemini 3 Pro 毫無懸念地成為了目前地球上數學最強的 AI。在數學競賽的“地獄模式”MathArena 裡,當包括 GPT-5.1 在內的其他大模型還在 1% 上下掙扎時,Gemini 3 Pro 直接幹到了23.4%。
編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對屬於第壹梯隊。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調用和終端操作基准測試中更是名列第壹。
真正炸裂的是它的“視覺智能”。
對屏幕截圖的理解能力高達72.7%,是目前最先進水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計算機的模式。

但這還沒完,Google 今晚還順手扔出了壹個小王炸:自家的 Agentic 編程平台——Google Antigravity。
此前網傳 Gemini 3 能實現“端到端編程”,大家以為是模型成精了。但看起來,並不是模型成精,而是 Google 正在探索如何用更好的系統工程實現端到端編程。
如果說 Cursor 是目前最強的“外骨骼”,它通過 AI 補全讓你寫代碼更快;那 Antigravity 就是奔著“自動駕駛”去的。它不再只是壹個編輯器,而是壹個智能體優先(Agent-first)發環境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI,發現報錯自己修。
不講故事,只拼肌肉。
Google 用這壹波硬核發布宣告:新王已至。
有趣的是,這次連 Sam Altman 都獻上了自己的點贊。:)

01 霸榜的暴力美學:不止是智商洗榜,更是 Agent 能力的變化
在 AI 圈子裡,大家習慣了模型之間你追我趕的微弱優勢,但 Gemini 3 Pro 拋出的這份成績單,可以說拾分耀眼。
根據 Model Card 披露的數據,Gemini 3 Pro 在推理、多模態、Agent 工具使用等關鍵基准上,實現了全方位的霸榜。

讓我們先看壹看代表人類智力“天花板”的測試——Humanity's Last Exam(人類最終大考)。這是壹個衡量學術推理極限的標尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復雜學術問題時,已經具備了完全不同的理解深度。
但這還不是極限。Google 甚至還藏了壹手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進壹步飆升至41.0%。看起來人類最後的堡壘也並不能持續很久了。

數理方面的每壹個領域,都能看出它的統治力。
AIME 2025(美國數學邀請賽):配合代碼執行(Code Execution),Gemini 3 Pro 的准確率達到了驚人的100%。沒錯,是滿分。即便是“裸考”(無工模式),它也有 95.0% 的准確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。
MathArena Apex(數學競賽地獄模式):
當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接幹到了23.4%。這意味著在很多以前 AI 根本“看不懂題”的領域,Gemini 3 已經開始解題了。
而更關鍵的是 Agent 相關能力的提升。
Gemini 壹向在多模態能力上領先,這壹代更是專門優化了屏幕理解(Screen Understanding)。這是下壹代 Agent 能否真正接管人類電腦的關鍵。
看ScreenSpot-Pro這壹欄數據:
GPT-5.1:3.5%(這基本意味著它是個“瞎子”)。
Gemini 3 Pro:72.7%。
這是近乎20 倍的能力碾壓!這標志著 Gemini 3 Pro 已經不再是壹個單純的對話框,它具備了真正意義上的“視覺智能”,能夠像人類壹樣理解復雜的操作系統界面。
在壹些傳統強項上,Gemini 3 Pro 仍然表現出色——比如支持1M Token的超大上下文窗口、對多模態數據的“原生支持”、長視頻和多語言處理等等。


有壹個很有趣的標准也被 Google 掛了上來:在 壹個模擬開店賺錢的基准 Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的淨資產,而 GPT-5.1 僅賺了 $1,473.43。
不過關於之前網傳“徹底端到端終結程序員”的編程能力,Gemini 3 Pro 的狀態是在 AI 屆頂尖,但並沒有“顛覆編程”。
在衡量軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro 得分為76.2%,雖然很強,但並未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長程、極其復雜的後端邏輯時,它依然有局限性。
這也很合理。每壹個大模型目前都在全力卷編程的情況下,想要在這個領域壹騎絕塵確實比較難。
目前 Gemini 的能力更偏向於,還不能幫你重構整個後端架構,但如果你想寫壹個極具現代設計美學的網站、壹個 3D 飛船游戲,或者生成復雜的 SVG 交互動畫,它能通過壹次提示就給出極其驚艷的、可直接運行的結果。
02 Antigravity,Agentic 編程的探索
有了最強的模型和算力,谷歌開始在應用層“掀桌子”了。今晚,谷歌扔出了壹個“小王炸”——Google Antigravity。
前壹陣新聞的風向還是模型公司努力收購 AI 編程應用公司呢,而 Google 這次則這麼快的就發了自己的開發平台。
這不僅僅是壹個新的 IDE,它是谷歌定義的Agent-first(智能體優先)開發平台。在這裡,開發者從“碼農”升級為“架構師”,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權限的“執行合伙人”。
為了達成這種體驗,谷歌甚至在後台配置了壹個“模型軍團”協同作戰:Gemini 3:作為大腦,負責高級推理和代碼編寫。
Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進行 UI 驗證和測試。
Nano Banana:作為美工,負責生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環體驗,對於 Cursor 等現有 AI 編輯器來說,無疑是壹次降維打擊。

Antigravity 最有趣的能力在於並行。官方材料明確提到,開發者可以與多個智能 Agent 協作,而這些 Agent 能夠代表你同時 自主規劃並執行復雜的端到端軟件任務。
想象壹下這種工作流:你下達壹個指令,Antigravity 瞬間分裂出多個 Agent——Agent A 負責寫後端邏輯,Agent B 負責在終端跑測試用例,Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們並行不悖,像是壹個配合默契的敏捷開發小組,而你只需要驗收它們提交的“工件”。
Antigravity 是是壹個免費平台,網絡上目前對於 Antigravity 的使用體驗不多,但基本上都是好評。
要達到替代 Cursor 本身,肯定不太行——端到端的復雜編程體驗,肯定還需要模型更成熟。但是簡單的項目進行編程,或許會更簡單了。
03 全家桶齊發力:TPU 與搜索
在大模型發展的後半程,比拼的不再是單壹算法的靈光壹閃,而是誰的算力更冗余、誰的數據更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有壹點是很特別的:
Gemini 3 Pro 是使用 Google TPU 訓練的。
當全世界的 AI 公司都在苦苦等待英偉達 GPU 的發貨周期時,谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓練設計,擁有極高的高帶寬內存(HBM),這讓它能夠輕松處理海量的模型參數和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴張參數規模的底氣。
有了算力,還要有“燃料”。Gemini 3 Pro 的訓練數據是全維度的覆蓋:它吞噬了公共網絡文檔、代碼庫、圖像、音頻和視頻。更關鍵的是,谷歌明確提到使用了User Data(用戶數據)——當然是在隱私協議框架下,來自谷歌龐大產品生態的用戶交互數據。
最後,這種溢出的智能被注入了 Google Search。Google 這次推出了壹個全新的AI Mode in Search。當你搜索壹個復雜概念(比如 RNA 聚合酶的工作原理)時,Gemini 3 不再是給你扔壹堆冷冰冰的鏈接,而是利用其強大的推理能力,即時生成(Generated on the fly)壹個沉浸式的互動圖表或模擬工具。

從底層的 TPU 硅基霸權,到中間層的模型智能,再到頂層的 Antigravity 開發生態與生成式搜索——谷歌這壹夜展示的,不僅僅是壹個滿分模型,而是壹個只有巨頭才能構建的、嚴絲合縫的未來。
04 實測體驗
最後讓我們看看網上的壹些實測體驗吧。
出名的六邊形測試的升級款。

不少帖子提及了設計上的美感。

壹些物理世界的建模。

前面提到的,Gemini 對於用戶界面數據這塊做了特別的優化。

開發應用。

在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復雜的前沿基准測試,其測量精度也開始失效。如何科學地量化模型之間的微妙差距,已經成為了壹門專門的“量化科學”,僅憑用戶簡單的實測手感,很難窺見其中的全部玄機。
實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態。
Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。
當模型直出能力越來越好,對於開發者來說,未來更多的是要看你的品味能不能跑過模型,你的點子是不是足夠與眾不同了。
[物價飛漲的時候 這樣省錢購物很爽]
好新聞沒人評論怎麼行,我來說幾句
預熱了快壹個月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續上線Google的各項產品中。
沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓。
按照 Google 披露的測試數據,Gemini 3 Pro 毫無懸念地成為了目前地球上數學最強的 AI。在數學競賽的“地獄模式”MathArena 裡,當包括 GPT-5.1 在內的其他大模型還在 1% 上下掙扎時,Gemini 3 Pro 直接幹到了23.4%。
編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對屬於第壹梯隊。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調用和終端操作基准測試中更是名列第壹。
真正炸裂的是它的“視覺智能”。
對屏幕截圖的理解能力高達72.7%,是目前最先進水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計算機的模式。

但這還沒完,Google 今晚還順手扔出了壹個小王炸:自家的 Agentic 編程平台——Google Antigravity。
此前網傳 Gemini 3 能實現“端到端編程”,大家以為是模型成精了。但看起來,並不是模型成精,而是 Google 正在探索如何用更好的系統工程實現端到端編程。
如果說 Cursor 是目前最強的“外骨骼”,它通過 AI 補全讓你寫代碼更快;那 Antigravity 就是奔著“自動駕駛”去的。它不再只是壹個編輯器,而是壹個智能體優先(Agent-first)發環境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI,發現報錯自己修。
不講故事,只拼肌肉。
Google 用這壹波硬核發布宣告:新王已至。
有趣的是,這次連 Sam Altman 都獻上了自己的點贊。:)

01 霸榜的暴力美學:不止是智商洗榜,更是 Agent 能力的變化
在 AI 圈子裡,大家習慣了模型之間你追我趕的微弱優勢,但 Gemini 3 Pro 拋出的這份成績單,可以說拾分耀眼。
根據 Model Card 披露的數據,Gemini 3 Pro 在推理、多模態、Agent 工具使用等關鍵基准上,實現了全方位的霸榜。

讓我們先看壹看代表人類智力“天花板”的測試——Humanity's Last Exam(人類最終大考)。這是壹個衡量學術推理極限的標尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復雜學術問題時,已經具備了完全不同的理解深度。
但這還不是極限。Google 甚至還藏了壹手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進壹步飆升至41.0%。看起來人類最後的堡壘也並不能持續很久了。

數理方面的每壹個領域,都能看出它的統治力。
AIME 2025(美國數學邀請賽):配合代碼執行(Code Execution),Gemini 3 Pro 的准確率達到了驚人的100%。沒錯,是滿分。即便是“裸考”(無工模式),它也有 95.0% 的准確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。
MathArena Apex(數學競賽地獄模式):
當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接幹到了23.4%。這意味著在很多以前 AI 根本“看不懂題”的領域,Gemini 3 已經開始解題了。
而更關鍵的是 Agent 相關能力的提升。
Gemini 壹向在多模態能力上領先,這壹代更是專門優化了屏幕理解(Screen Understanding)。這是下壹代 Agent 能否真正接管人類電腦的關鍵。
看ScreenSpot-Pro這壹欄數據:
GPT-5.1:3.5%(這基本意味著它是個“瞎子”)。
Gemini 3 Pro:72.7%。
這是近乎20 倍的能力碾壓!這標志著 Gemini 3 Pro 已經不再是壹個單純的對話框,它具備了真正意義上的“視覺智能”,能夠像人類壹樣理解復雜的操作系統界面。
在壹些傳統強項上,Gemini 3 Pro 仍然表現出色——比如支持1M Token的超大上下文窗口、對多模態數據的“原生支持”、長視頻和多語言處理等等。


有壹個很有趣的標准也被 Google 掛了上來:在 壹個模擬開店賺錢的基准 Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的淨資產,而 GPT-5.1 僅賺了 $1,473.43。
不過關於之前網傳“徹底端到端終結程序員”的編程能力,Gemini 3 Pro 的狀態是在 AI 屆頂尖,但並沒有“顛覆編程”。
在衡量軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro 得分為76.2%,雖然很強,但並未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長程、極其復雜的後端邏輯時,它依然有局限性。
這也很合理。每壹個大模型目前都在全力卷編程的情況下,想要在這個領域壹騎絕塵確實比較難。
目前 Gemini 的能力更偏向於,還不能幫你重構整個後端架構,但如果你想寫壹個極具現代設計美學的網站、壹個 3D 飛船游戲,或者生成復雜的 SVG 交互動畫,它能通過壹次提示就給出極其驚艷的、可直接運行的結果。
02 Antigravity,Agentic 編程的探索
有了最強的模型和算力,谷歌開始在應用層“掀桌子”了。今晚,谷歌扔出了壹個“小王炸”——Google Antigravity。
前壹陣新聞的風向還是模型公司努力收購 AI 編程應用公司呢,而 Google 這次則這麼快的就發了自己的開發平台。
這不僅僅是壹個新的 IDE,它是谷歌定義的Agent-first(智能體優先)開發平台。在這裡,開發者從“碼農”升級為“架構師”,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權限的“執行合伙人”。
為了達成這種體驗,谷歌甚至在後台配置了壹個“模型軍團”協同作戰:Gemini 3:作為大腦,負責高級推理和代碼編寫。
Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進行 UI 驗證和測試。
Nano Banana:作為美工,負責生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環體驗,對於 Cursor 等現有 AI 編輯器來說,無疑是壹次降維打擊。

Antigravity 最有趣的能力在於並行。官方材料明確提到,開發者可以與多個智能 Agent 協作,而這些 Agent 能夠代表你同時 自主規劃並執行復雜的端到端軟件任務。
想象壹下這種工作流:你下達壹個指令,Antigravity 瞬間分裂出多個 Agent——Agent A 負責寫後端邏輯,Agent B 負責在終端跑測試用例,Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們並行不悖,像是壹個配合默契的敏捷開發小組,而你只需要驗收它們提交的“工件”。
Antigravity 是是壹個免費平台,網絡上目前對於 Antigravity 的使用體驗不多,但基本上都是好評。
要達到替代 Cursor 本身,肯定不太行——端到端的復雜編程體驗,肯定還需要模型更成熟。但是簡單的項目進行編程,或許會更簡單了。
03 全家桶齊發力:TPU 與搜索
在大模型發展的後半程,比拼的不再是單壹算法的靈光壹閃,而是誰的算力更冗余、誰的數據更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有壹點是很特別的:
Gemini 3 Pro 是使用 Google TPU 訓練的。
當全世界的 AI 公司都在苦苦等待英偉達 GPU 的發貨周期時,谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓練設計,擁有極高的高帶寬內存(HBM),這讓它能夠輕松處理海量的模型參數和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴張參數規模的底氣。
有了算力,還要有“燃料”。Gemini 3 Pro 的訓練數據是全維度的覆蓋:它吞噬了公共網絡文檔、代碼庫、圖像、音頻和視頻。更關鍵的是,谷歌明確提到使用了User Data(用戶數據)——當然是在隱私協議框架下,來自谷歌龐大產品生態的用戶交互數據。
最後,這種溢出的智能被注入了 Google Search。Google 這次推出了壹個全新的AI Mode in Search。當你搜索壹個復雜概念(比如 RNA 聚合酶的工作原理)時,Gemini 3 不再是給你扔壹堆冷冰冰的鏈接,而是利用其強大的推理能力,即時生成(Generated on the fly)壹個沉浸式的互動圖表或模擬工具。

從底層的 TPU 硅基霸權,到中間層的模型智能,再到頂層的 Antigravity 開發生態與生成式搜索——谷歌這壹夜展示的,不僅僅是壹個滿分模型,而是壹個只有巨頭才能構建的、嚴絲合縫的未來。
04 實測體驗
最後讓我們看看網上的壹些實測體驗吧。
出名的六邊形測試的升級款。

不少帖子提及了設計上的美感。

壹些物理世界的建模。

前面提到的,Gemini 對於用戶界面數據這塊做了特別的優化。

開發應用。

在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復雜的前沿基准測試,其測量精度也開始失效。如何科學地量化模型之間的微妙差距,已經成為了壹門專門的“量化科學”,僅憑用戶簡單的實測手感,很難窺見其中的全部玄機。
實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態。
Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。
當模型直出能力越來越好,對於開發者來說,未來更多的是要看你的品味能不能跑過模型,你的點子是不是足夠與眾不同了。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: |
| 延伸閱讀 | 更多... |
推薦: