40天不睡5人死磕 Gemini大戰DeepSeek慘烈內幕
DeepMind的Gemini預訓練負責人 Vlad Feinberg自曝研發內幕:5人團隊為搶跑DeepSeek,在硅谷和巴黎雙城倒班、40天幾乎不眠不休死磕訓練。他不認為人工智能會取代所有人的工作,原因在於,人類在組織裡承擔的壹個關鍵角色,是構成壹張信任網絡。
Google DeepMind 的 Gemini 預訓練主管 Vlad Feinberg,最近在壹檔播客裡聊了聊他的日常。
在大眾的想象中,頂尖實驗室的研究員每天都在推導顛覆性的算法。但 Vlad 說,他職業生涯最重要的壹筆獎金,是谷歌傳奇人物 Jeff Dean 親手發給他的——當時他剛入職 Google Brain,沒有像當年同樣在谷歌的 Transformer 作者們壹樣,去寫那些能發到頂級會議上的第壹作者論文,而是默默幹了幾天最髒的活:調整編譯器和超參數,解決顯存溢出,把壹個叫 SFT 的微調任務塞進了壹堆老舊的 TPU 卡裡,這才讓第壹代 Bard 勉強跑通。
這種“幹髒活”的工程體驗,才是這輪大模型競爭最真實的樣子。Gemini 2.0 出來的時候,外界都在贊歎它作為壹個 MoE 模型有多神奇。但 Vlad 透露,背後其實只有 5 個人在頂著。
算力卡隨時會掛,數據索引隨時會斷,為了不白白浪費幾百萬美元的算力費,他們只能在硅谷和巴黎兩個大區之間 24 小時倒班,不眠不休地死磕了 40 天。甚至在 DeepSeek-V3 爆紅、華爾街日報制作表格拉踩谷歌已經落後時,Vlad 也是哭笑不得——媒體為了制造爆款新聞,在表格裡故意刪掉了(elided)排名其實高居第壹的 Gemini 2.0 Flash Thinking。
對於甚囂塵上的“程序員要失業”的恐慌,這位主管給出了壹個很幹脆的觀點:AI 永遠無法被“吊銷律師執照”,因為它不具備主體資格,無法承擔法律責任,所以人類永遠要為它的產出簽字並背書。

他的組裡有壹個叫 Nate Lintz 的普通工程師,之前在搜索部門寫後端基礎架構,就是靠著在業務裡幫大模型落地,解決最具體的推理開銷,最終內部轉崗到 DeepMind 成了技術支柱。

如果你也想去,Vlad 在他的博客裡放了壹個“硬核作業”(手寫壹個 Transformer 並手算 Scaling Laws 錄成視頻發給他),做完了他直接面你。以下是這次談話裡,他聊到的幾個極其真實的行業細節:
法律大模型可以背下所有判例,但它不能代表你出庭,因為它無法被“吊銷執照”。職業的底層邏輯是責任和信任的分配。因為 AI 無法承擔法律後果,代碼的終點永遠需要壹個具體的人來簽字、背書並承擔責任。這才是程序員不會被替代的終極底線。
寫再牛逼的學術論文,都不如幫團隊省下幾張卡的顯存。很多眼高手低的程序員在 AI 時代迷失在理論和框架中。但在研發壹線,最容易拿獎金的能力,是那些不體面的“重體力活”——優化編譯器、調試超參、在有限的芯片裡榨出最後壹絲算力。這種扎實的工程能力,才是跨越周期的硬通貨。
[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
Google DeepMind 的 Gemini 預訓練主管 Vlad Feinberg,最近在壹檔播客裡聊了聊他的日常。
在大眾的想象中,頂尖實驗室的研究員每天都在推導顛覆性的算法。但 Vlad 說,他職業生涯最重要的壹筆獎金,是谷歌傳奇人物 Jeff Dean 親手發給他的——當時他剛入職 Google Brain,沒有像當年同樣在谷歌的 Transformer 作者們壹樣,去寫那些能發到頂級會議上的第壹作者論文,而是默默幹了幾天最髒的活:調整編譯器和超參數,解決顯存溢出,把壹個叫 SFT 的微調任務塞進了壹堆老舊的 TPU 卡裡,這才讓第壹代 Bard 勉強跑通。
這種“幹髒活”的工程體驗,才是這輪大模型競爭最真實的樣子。Gemini 2.0 出來的時候,外界都在贊歎它作為壹個 MoE 模型有多神奇。但 Vlad 透露,背後其實只有 5 個人在頂著。
算力卡隨時會掛,數據索引隨時會斷,為了不白白浪費幾百萬美元的算力費,他們只能在硅谷和巴黎兩個大區之間 24 小時倒班,不眠不休地死磕了 40 天。甚至在 DeepSeek-V3 爆紅、華爾街日報制作表格拉踩谷歌已經落後時,Vlad 也是哭笑不得——媒體為了制造爆款新聞,在表格裡故意刪掉了(elided)排名其實高居第壹的 Gemini 2.0 Flash Thinking。
對於甚囂塵上的“程序員要失業”的恐慌,這位主管給出了壹個很幹脆的觀點:AI 永遠無法被“吊銷律師執照”,因為它不具備主體資格,無法承擔法律責任,所以人類永遠要為它的產出簽字並背書。

他的組裡有壹個叫 Nate Lintz 的普通工程師,之前在搜索部門寫後端基礎架構,就是靠著在業務裡幫大模型落地,解決最具體的推理開銷,最終內部轉崗到 DeepMind 成了技術支柱。

如果你也想去,Vlad 在他的博客裡放了壹個“硬核作業”(手寫壹個 Transformer 並手算 Scaling Laws 錄成視頻發給他),做完了他直接面你。以下是這次談話裡,他聊到的幾個極其真實的行業細節:
法律大模型可以背下所有判例,但它不能代表你出庭,因為它無法被“吊銷執照”。職業的底層邏輯是責任和信任的分配。因為 AI 無法承擔法律後果,代碼的終點永遠需要壹個具體的人來簽字、背書並承擔責任。這才是程序員不會被替代的終極底線。
寫再牛逼的學術論文,都不如幫團隊省下幾張卡的顯存。很多眼高手低的程序員在 AI 時代迷失在理論和框架中。但在研發壹線,最容易拿獎金的能力,是那些不體面的“重體力活”——優化編譯器、調試超參、在有限的芯片裡榨出最後壹絲算力。這種扎實的工程能力,才是跨越周期的硬通貨。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



