40天不睡5人死磕 Gemini大战DeepSeek惨烈内幕
DeepMind的Gemini预训练负责人 Vlad Feinberg自曝研发内幕:5人团队为抢跑DeepSeek,在硅谷和巴黎双城倒班、40天几乎不眠不休死磕训练。他不认为人工智能会取代所有人的工作,原因在于,人类在组织里承担的一个关键角色,是构成一张信任网络。
Google DeepMind 的 Gemini 预训练主管 Vlad Feinberg,最近在一档播客里聊了聊他的日常。
在大众的想象中,顶尖实验室的研究员每天都在推导颠覆性的算法。但 Vlad 说,他职业生涯最重要的一笔奖金,是谷歌传奇人物 Jeff Dean 亲手发给他的——当时他刚入职 Google Brain,没有像当年同样在谷歌的 Transformer 作者们一样,去写那些能发到顶级会议上的第一作者论文,而是默默干了几天最脏的活:调整编译器和超参数,解决显存溢出,把一个叫 SFT 的微调任务塞进了一堆老旧的 TPU 卡里,这才让第一代 Bard 勉强跑通。
这种“干脏活”的工程体验,才是这轮大模型竞争最真实的样子。Gemini 2.0 出来的时候,外界都在赞叹它作为一个 MoE 模型有多神奇。但 Vlad 透露,背后其实只有 5 个人在顶着。
算力卡随时会挂,数据索引随时会断,为了不白白浪费几百万美元的算力费,他们只能在硅谷和巴黎两个大区之间 24 小时倒班,不眠不休地死磕了 40 天。甚至在 DeepSeek-V3 爆红、华尔街日报制作表格拉踩谷歌已经落后时,Vlad 也是哭笑不得——媒体为了制造爆款新闻,在表格里故意删掉了(elided)排名其实高居第一的 Gemini 2.0 Flash Thinking。
对于甚嚣尘上的“程序员要失业”的恐慌,这位主管给出了一个很干脆的观点:AI 永远无法被“吊销律师执照”,因为它不具备主体资格,无法承担法律责任,所以人类永远要为它的产出签字并背书。

他的组里有一个叫 Nate Lintz 的普通工程师,之前在搜索部门写后端基础架构,就是靠着在业务里帮大模型落地,解决最具体的推理开销,最终内部转岗到 DeepMind 成了技术支柱。

如果你也想去,Vlad 在他的博客里放了一个“硬核作业”(手写一个 Transformer 并手算 Scaling Laws 录成视频发给他),做完了他直接面你。以下是这次谈话里,他聊到的几个极其真实的行业细节:
法律大模型可以背下所有判例,但它不能代表你出庭,因为它无法被“吊销执照”。职业的底层逻辑是责任和信任的分配。因为 AI 无法承担法律后果,代码的终点永远需要一个具体的人来签字、背书并承担责任。这才是程序员不会被替代的终极底线。
写再牛逼的学术论文,都不如帮团队省下几张卡的显存。很多眼高手低的程序员在 AI 时代迷失在理论和框架中。但在研发一线,最容易拿奖金的能力,是那些不体面的“重体力活”——优化编译器、调试超参、在有限的芯片里榨出最后一丝算力。这种扎实的工程能力,才是跨越周期的硬通货。
[物价飞涨的时候 这样省钱购物很爽]
还没人说话啊,我想来说几句
Google DeepMind 的 Gemini 预训练主管 Vlad Feinberg,最近在一档播客里聊了聊他的日常。
在大众的想象中,顶尖实验室的研究员每天都在推导颠覆性的算法。但 Vlad 说,他职业生涯最重要的一笔奖金,是谷歌传奇人物 Jeff Dean 亲手发给他的——当时他刚入职 Google Brain,没有像当年同样在谷歌的 Transformer 作者们一样,去写那些能发到顶级会议上的第一作者论文,而是默默干了几天最脏的活:调整编译器和超参数,解决显存溢出,把一个叫 SFT 的微调任务塞进了一堆老旧的 TPU 卡里,这才让第一代 Bard 勉强跑通。
这种“干脏活”的工程体验,才是这轮大模型竞争最真实的样子。Gemini 2.0 出来的时候,外界都在赞叹它作为一个 MoE 模型有多神奇。但 Vlad 透露,背后其实只有 5 个人在顶着。
算力卡随时会挂,数据索引随时会断,为了不白白浪费几百万美元的算力费,他们只能在硅谷和巴黎两个大区之间 24 小时倒班,不眠不休地死磕了 40 天。甚至在 DeepSeek-V3 爆红、华尔街日报制作表格拉踩谷歌已经落后时,Vlad 也是哭笑不得——媒体为了制造爆款新闻,在表格里故意删掉了(elided)排名其实高居第一的 Gemini 2.0 Flash Thinking。
对于甚嚣尘上的“程序员要失业”的恐慌,这位主管给出了一个很干脆的观点:AI 永远无法被“吊销律师执照”,因为它不具备主体资格,无法承担法律责任,所以人类永远要为它的产出签字并背书。

他的组里有一个叫 Nate Lintz 的普通工程师,之前在搜索部门写后端基础架构,就是靠着在业务里帮大模型落地,解决最具体的推理开销,最终内部转岗到 DeepMind 成了技术支柱。

如果你也想去,Vlad 在他的博客里放了一个“硬核作业”(手写一个 Transformer 并手算 Scaling Laws 录成视频发给他),做完了他直接面你。以下是这次谈话里,他聊到的几个极其真实的行业细节:
法律大模型可以背下所有判例,但它不能代表你出庭,因为它无法被“吊销执照”。职业的底层逻辑是责任和信任的分配。因为 AI 无法承担法律后果,代码的终点永远需要一个具体的人来签字、背书并承担责任。这才是程序员不会被替代的终极底线。
写再牛逼的学术论文,都不如帮团队省下几张卡的显存。很多眼高手低的程序员在 AI 时代迷失在理论和框架中。但在研发一线,最容易拿奖金的能力,是那些不体面的“重体力活”——优化编译器、调试超参、在有限的芯片里榨出最后一丝算力。这种扎实的工程能力,才是跨越周期的硬通货。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:



