[谷歌] Google首席AI架構師:Gemini 逆風翻盤有18個關鍵
真正的 Agent 場景來自:
創作者的任務鏈路
學生的寫作流程
工程師的工具調用模式
商業用戶的復雜需求
也就是說,Google 走了壹條與 OpenAI 不同的路徑:不是“demo 優先”,而是“真實用戶需求優先”。Agent 的能力不是靠酷炫演示驅動的,而是靠“讓百萬用戶每天用”驅動的。
六、Google 真正的反超武器:模型、產品、工程第壹次被統壹
Koray 多次強調壹個過去被低估的事實:Gemini 3 不是“模型團隊”的勝利,而是“工程、產品、模型、安全”第壹次從第壹天就被捏在壹起推進。
以往是:
模型訓練完了,產品團隊接盤
安全團隊在最後做審核
工程團隊負責部署
而今天是:
產品團隊從訓練最初就參與
安全成為訓練目標,而不是後置規則
真實用戶數據(AI Studio、AI Overviews、Anti-Gravity)直接反哺模型
使用成本、延遲、推理路徑都在訓練階段就被優化
Google 終於構建出了壹個“模型 × 產品 × 工程”的統壹體系。這是它在 2024–2025 年真正反超的結構性基礎。
柒、Nano Banana Pro 的突破不是“畫圖變好看”,而是“理解世界結構”
外界關注圖像模型總是看“清晰度”、“風格”,但 Koray 在訪談中反復強調,真正的突破來自:
理解 PDF、表格、圖表等復雜文檔結構
具備結構化的視覺推理
第壹次能生成“概念壹致的信息圖”
壹句值得記下的話是:
“當壹個模型能把復雜概念准確地用壹張信息圖表達出來,你就能感受到真正的理解。”
這是多模態模型的真正價值,也直接指向 Agent 的未來能力。
八、多模態不是功能加法,而是真正的“世界模型”入口
Koray 給出了壹個簡潔但極具說服力的框架:
文本是線性的,視覺是空間的,音頻是時序的。真實世界不是只靠線性序列能描述的。因此壹個真正智能的模型必須同時具備叁種感知維度。
這也是為什麼 Google 在推進統壹多模態模型上比任何公司都更加堅持——不是因為多模態“更炫酷”,而是因為它是理解世界的基礎。
九、統壹模型並不是“把視覺塞進語言模型”,而是壹場架構革命
外界經常把“統壹模型”理解成方向正確的趨勢,但 Koray 的解釋更具技術深度。他指出:文本和圖像的輸出結構根本不同——文本是壹維的,圖像是贰維的。這意味著訓練方式、損失函數、優化器、token 化方式都要重新發明。
統壹模型不是“時代潮流”這麼簡單,而是 必須突破的工程極限。Google 的敘事沒有浪漫,也沒有玄學,只有工程難題。
拾、DeepMind 的文化基因:謙遜、科學與大規模協作
這部分是整場訪談裡最“人味”的地方。
DeepMind 的文化由叁部分組成:
科學心態 —— 所有問題回到實驗與學習,而不是路徑依賴。
謙遜 —— 那句“我們不知道終極配方”不是客套,而是策略。
協作能力 —— 從 25 個人寫論文到 2500 人壹起推進單壹模型。
在壹個公司試圖從科研轉型為工程、從工程轉型為產品的過程中,這種文化結構變得至關重要。
[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
創作者的任務鏈路
學生的寫作流程
工程師的工具調用模式
商業用戶的復雜需求
也就是說,Google 走了壹條與 OpenAI 不同的路徑:不是“demo 優先”,而是“真實用戶需求優先”。Agent 的能力不是靠酷炫演示驅動的,而是靠“讓百萬用戶每天用”驅動的。
六、Google 真正的反超武器:模型、產品、工程第壹次被統壹
Koray 多次強調壹個過去被低估的事實:Gemini 3 不是“模型團隊”的勝利,而是“工程、產品、模型、安全”第壹次從第壹天就被捏在壹起推進。
以往是:
模型訓練完了,產品團隊接盤
安全團隊在最後做審核
工程團隊負責部署
而今天是:
產品團隊從訓練最初就參與
安全成為訓練目標,而不是後置規則
真實用戶數據(AI Studio、AI Overviews、Anti-Gravity)直接反哺模型
使用成本、延遲、推理路徑都在訓練階段就被優化
Google 終於構建出了壹個“模型 × 產品 × 工程”的統壹體系。這是它在 2024–2025 年真正反超的結構性基礎。
柒、Nano Banana Pro 的突破不是“畫圖變好看”,而是“理解世界結構”
外界關注圖像模型總是看“清晰度”、“風格”,但 Koray 在訪談中反復強調,真正的突破來自:
理解 PDF、表格、圖表等復雜文檔結構
具備結構化的視覺推理
第壹次能生成“概念壹致的信息圖”
壹句值得記下的話是:
“當壹個模型能把復雜概念准確地用壹張信息圖表達出來,你就能感受到真正的理解。”
這是多模態模型的真正價值,也直接指向 Agent 的未來能力。
八、多模態不是功能加法,而是真正的“世界模型”入口
Koray 給出了壹個簡潔但極具說服力的框架:
文本是線性的,視覺是空間的,音頻是時序的。真實世界不是只靠線性序列能描述的。因此壹個真正智能的模型必須同時具備叁種感知維度。
這也是為什麼 Google 在推進統壹多模態模型上比任何公司都更加堅持——不是因為多模態“更炫酷”,而是因為它是理解世界的基礎。
九、統壹模型並不是“把視覺塞進語言模型”,而是壹場架構革命
外界經常把“統壹模型”理解成方向正確的趨勢,但 Koray 的解釋更具技術深度。他指出:文本和圖像的輸出結構根本不同——文本是壹維的,圖像是贰維的。這意味著訓練方式、損失函數、優化器、token 化方式都要重新發明。
統壹模型不是“時代潮流”這麼簡單,而是 必須突破的工程極限。Google 的敘事沒有浪漫,也沒有玄學,只有工程難題。
拾、DeepMind 的文化基因:謙遜、科學與大規模協作
這部分是整場訪談裡最“人味”的地方。
DeepMind 的文化由叁部分組成:
科學心態 —— 所有問題回到實驗與學習,而不是路徑依賴。
謙遜 —— 那句“我們不知道終極配方”不是客套,而是策略。
協作能力 —— 從 25 個人寫論文到 2500 人壹起推進單壹模型。
在壹個公司試圖從科研轉型為工程、從工程轉型為產品的過程中,這種文化結構變得至關重要。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦: