[谷歌] Google首席AI架构师:Gemini 逆风翻盘有18个关键
真正的 Agent 场景来自:
创作者的任务链路
学生的写作流程
工程师的工具调用模式
商业用户的复杂需求
也就是说,Google 走了一条与 OpenAI 不同的路径:不是“demo 优先”,而是“真实用户需求优先”。Agent 的能力不是靠酷炫演示驱动的,而是靠“让百万用户每天用”驱动的。
六、Google 真正的反超武器:模型、产品、工程第一次被统一
Koray 多次强调一个过去被低估的事实:Gemini 3 不是“模型团队”的胜利,而是“工程、产品、模型、安全”第一次从第一天就被捏在一起推进。
以往是:
模型训练完了,产品团队接盘
安全团队在最后做审核
工程团队负责部署
而今天是:
产品团队从训练最初就参与
安全成为训练目标,而不是后置规则
真实用户数据(AI Studio、AI Overviews、Anti-Gravity)直接反哺模型
使用成本、延迟、推理路径都在训练阶段就被优化
Google 终于构建出了一个“模型 × 产品 × 工程”的统一体系。这是它在 2024–2025 年真正反超的结构性基础。
七、Nano Banana Pro 的突破不是“画图变好看”,而是“理解世界结构”
外界关注图像模型总是看“清晰度”、“风格”,但 Koray 在访谈中反复强调,真正的突破来自:
理解 PDF、表格、图表等复杂文档结构
具备结构化的视觉推理
第一次能生成“概念一致的信息图”
一句值得记下的话是:
“当一个模型能把复杂概念准确地用一张信息图表达出来,你就能感受到真正的理解。”
这是多模态模型的真正价值,也直接指向 Agent 的未来能力。
八、多模态不是功能加法,而是真正的“世界模型”入口
Koray 给出了一个简洁但极具说服力的框架:
文本是线性的,视觉是空间的,音频是时序的。真实世界不是只靠线性序列能描述的。因此一个真正智能的模型必须同时具备三种感知维度。
这也是为什么 Google 在推进统一多模态模型上比任何公司都更加坚持——不是因为多模态“更炫酷”,而是因为它是理解世界的基础。
九、统一模型并不是“把视觉塞进语言模型”,而是一场架构革命
外界经常把“统一模型”理解成方向正确的趋势,但 Koray 的解释更具技术深度。他指出:文本和图像的输出结构根本不同——文本是一维的,图像是二维的。这意味着训练方式、损失函数、优化器、token 化方式都要重新发明。
统一模型不是“时代潮流”这么简单,而是 必须突破的工程极限。Google 的叙事没有浪漫,也没有玄学,只有工程难题。
十、DeepMind 的文化基因:谦逊、科学与大规模协作
这部分是整场访谈里最“人味”的地方。
DeepMind 的文化由三部分组成:
科学心态 —— 所有问题回到实验与学习,而不是路径依赖。
谦逊 —— 那句“我们不知道终极配方”不是客套,而是策略。
协作能力 —— 从 25 个人写论文到 2500 人一起推进单一模型。
在一个公司试图从科研转型为工程、从工程转型为产品的过程中,这种文化结构变得至关重要。
[加西网正招聘多名全职sales 待遇优]
还没人说话啊,我想来说几句
创作者的任务链路
学生的写作流程
工程师的工具调用模式
商业用户的复杂需求
也就是说,Google 走了一条与 OpenAI 不同的路径:不是“demo 优先”,而是“真实用户需求优先”。Agent 的能力不是靠酷炫演示驱动的,而是靠“让百万用户每天用”驱动的。
六、Google 真正的反超武器:模型、产品、工程第一次被统一
Koray 多次强调一个过去被低估的事实:Gemini 3 不是“模型团队”的胜利,而是“工程、产品、模型、安全”第一次从第一天就被捏在一起推进。
以往是:
模型训练完了,产品团队接盘
安全团队在最后做审核
工程团队负责部署
而今天是:
产品团队从训练最初就参与
安全成为训练目标,而不是后置规则
真实用户数据(AI Studio、AI Overviews、Anti-Gravity)直接反哺模型
使用成本、延迟、推理路径都在训练阶段就被优化
Google 终于构建出了一个“模型 × 产品 × 工程”的统一体系。这是它在 2024–2025 年真正反超的结构性基础。
七、Nano Banana Pro 的突破不是“画图变好看”,而是“理解世界结构”
外界关注图像模型总是看“清晰度”、“风格”,但 Koray 在访谈中反复强调,真正的突破来自:
理解 PDF、表格、图表等复杂文档结构
具备结构化的视觉推理
第一次能生成“概念一致的信息图”
一句值得记下的话是:
“当一个模型能把复杂概念准确地用一张信息图表达出来,你就能感受到真正的理解。”
这是多模态模型的真正价值,也直接指向 Agent 的未来能力。
八、多模态不是功能加法,而是真正的“世界模型”入口
Koray 给出了一个简洁但极具说服力的框架:
文本是线性的,视觉是空间的,音频是时序的。真实世界不是只靠线性序列能描述的。因此一个真正智能的模型必须同时具备三种感知维度。
这也是为什么 Google 在推进统一多模态模型上比任何公司都更加坚持——不是因为多模态“更炫酷”,而是因为它是理解世界的基础。
九、统一模型并不是“把视觉塞进语言模型”,而是一场架构革命
外界经常把“统一模型”理解成方向正确的趋势,但 Koray 的解释更具技术深度。他指出:文本和图像的输出结构根本不同——文本是一维的,图像是二维的。这意味着训练方式、损失函数、优化器、token 化方式都要重新发明。
统一模型不是“时代潮流”这么简单,而是 必须突破的工程极限。Google 的叙事没有浪漫,也没有玄学,只有工程难题。
十、DeepMind 的文化基因:谦逊、科学与大规模协作
这部分是整场访谈里最“人味”的地方。
DeepMind 的文化由三部分组成:
科学心态 —— 所有问题回到实验与学习,而不是路径依赖。
谦逊 —— 那句“我们不知道终极配方”不是客套,而是策略。
协作能力 —— 从 25 个人写论文到 2500 人一起推进单一模型。
在一个公司试图从科研转型为工程、从工程转型为产品的过程中,这种文化结构变得至关重要。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐: