Google首席AI架構師:Gemini 逆風翻盤有18個關鍵

[谷歌] Google首席AI架構師:Gemini 逆風翻盤有18個關鍵

2025-11-28 | 來源: 硅星人 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

真正的 Agent 場景來自：

創作者的任務鏈路

學生的寫作流程

工程師的工具調用模式

商業用戶的復雜需求

也就是說，Google 走了壹條與 OpenAI 不同的路徑：不是“demo 優先”，而是“真實用戶需求優先”。Agent 的能力不是靠酷炫演示驅動的，而是靠“讓百萬用戶每天用”驅動的。

六、Google 真正的反超武器：模型、產品、工程第壹次被統壹

Koray 多次強調壹個過去被低估的事實：Gemini 3 不是“模型團隊”的勝利，而是“工程、產品、模型、安全”第壹次從第壹天就被捏在壹起推進。

以往是：

模型訓練完了，產品團隊接盤

安全團隊在最後做審核

工程團隊負責部署

而今天是：

產品團隊從訓練最初就參與

安全成為訓練目標，而不是後置規則

真實用戶數據（AI Studio、AI Overviews、Anti-Gravity）直接反哺模型

使用成本、延遲、推理路徑都在訓練階段就被優化

Google 終於構建出了壹個“模型 × 產品 × 工程”的統壹體系。這是它在 2024–2025 年真正反超的結構性基礎。

柒、Nano Banana Pro 的突破不是“畫圖變好看”，而是“理解世界結構”

外界關注圖像模型總是看“清晰度”、“風格”，但 Koray 在訪談中反復強調，真正的突破來自：

理解 PDF、表格、圖表等復雜文檔結構

具備結構化的視覺推理

第壹次能生成“概念壹致的信息圖”

壹句值得記下的話是：

“當壹個模型能把復雜概念准確地用壹張信息圖表達出來，你就能感受到真正的理解。”

這是多模態模型的真正價值，也直接指向 Agent 的未來能力。

八、多模態不是功能加法，而是真正的“世界模型”入口

Koray 給出了壹個簡潔但極具說服力的框架：

文本是線性的，視覺是空間的，音頻是時序的。真實世界不是只靠線性序列能描述的。因此壹個真正智能的模型必須同時具備叁種感知維度。

這也是為什麼 Google 在推進統壹多模態模型上比任何公司都更加堅持——不是因為多模態“更炫酷”，而是因為它是理解世界的基礎。

九、統壹模型並不是“把視覺塞進語言模型”，而是壹場架構革命

外界經常把“統壹模型”理解成方向正確的趨勢，但 Koray 的解釋更具技術深度。他指出：文本和圖像的輸出結構根本不同——文本是壹維的，圖像是贰維的。這意味著訓練方式、損失函數、優化器、token 化方式都要重新發明。

統壹模型不是“時代潮流”這麼簡單，而是必須突破的工程極限。Google 的敘事沒有浪漫，也沒有玄學，只有工程難題。

拾、DeepMind 的文化基因：謙遜、科學與大規模協作

這部分是整場訪談裡最“人味”的地方。

DeepMind 的文化由叁部分組成：

科學心態 —— 所有問題回到實驗與學習，而不是路徑依賴。

謙遜 —— 那句“我們不知道終極配方”不是客套，而是策略。

協作能力 —— 從 25 個人寫論文到 2500 人壹起推進單壹模型。

在壹個公司試圖從科研轉型為工程、從工程轉型為產品的過程中，這種文化結構變得至關重要。

[物價飛漲的時候這樣省錢購物很爽] 無評論不新聞，發表壹下您的意見吧

分享:

上壹頁 123 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

[谷歌] Google首席AI架構師:Gemini 逆風翻盤有18個關鍵

意見