[谷歌] 谷歌幹掉了"等你說完才翻譯" 70+語言邊聽邊譯
壹句話還沒說完,譯音已經響在你耳邊——而且是對方的語速、對方的語調,只慢幾秒。剛剛,Google 甩出了 Gemini 3.5 Live Translate。這是它最新的語音對語音翻譯模型,壹句話概括:把“等你說完再翻”的老規矩,直接掀了。
Google DeepMind 首席科學家 Jeff Dean 親自發帖官宣,字裡行間透著壹股“贰拾年磨壹劍”的底氣:
語音翻譯是 Google 跑得最久的機器學習項目之壹,而這壹次,它終於跑進了耳機。
把“對講機”式翻譯給掀了過去的翻譯機大家都熟。
你說壹句,它憋著,等你把話說完,再吭哧吭哧翻給對方。
壹來壹回,節奏全斷,倆人像在打對講機。
更要命的是,真實對話從來不是規規矩矩的你壹句我壹句——人會搶話、會猶豫、會說半截改口。
Gemini 3.5 Live Translate 不這麼幹。它邊聽邊譯,話音未落,譯音先到。
這背後是壹套相當微妙的平衡術:多等壹會兒,上下文聽得更全,翻得更准;立刻開口,能緊緊跟住說話人,但可能猜錯後半句。


模型就在這兩頭之間逐字逐句地反復拿捏,最終交出的效果是——輸出連貫、沒有尷尬的卡頓,全程只落後說話人幾秒。
更絕的是聲音本身。
它能保留你的語速、音高和語調——譯出來的不是冷冰冰的機器音,是帶著你說話味兒的聲音。你著急,譯音也跟著急;你慢條斯理,譯音也悠著來。
DeepMind 同步放出的模型卡透了點底:這個模型基於 Gemini 3 Pro 打造,能吃進最長 128K token 的音頻上下文,評測就盯著叁個指標死磕——翻譯質量、延遲、語音自然度。

[物價飛漲的時候 這樣省錢購物很爽]
好新聞沒人評論怎麼行,我來說幾句
Google DeepMind 首席科學家 Jeff Dean 親自發帖官宣,字裡行間透著壹股“贰拾年磨壹劍”的底氣:
語音翻譯是 Google 跑得最久的機器學習項目之壹,而這壹次,它終於跑進了耳機。
把“對講機”式翻譯給掀了過去的翻譯機大家都熟。
你說壹句,它憋著,等你把話說完,再吭哧吭哧翻給對方。
壹來壹回,節奏全斷,倆人像在打對講機。
更要命的是,真實對話從來不是規規矩矩的你壹句我壹句——人會搶話、會猶豫、會說半截改口。
Gemini 3.5 Live Translate 不這麼幹。它邊聽邊譯,話音未落,譯音先到。
這背後是壹套相當微妙的平衡術:多等壹會兒,上下文聽得更全,翻得更准;立刻開口,能緊緊跟住說話人,但可能猜錯後半句。


模型就在這兩頭之間逐字逐句地反復拿捏,最終交出的效果是——輸出連貫、沒有尷尬的卡頓,全程只落後說話人幾秒。
更絕的是聲音本身。
它能保留你的語速、音高和語調——譯出來的不是冷冰冰的機器音,是帶著你說話味兒的聲音。你著急,譯音也跟著急;你慢條斯理,譯音也悠著來。
DeepMind 同步放出的模型卡透了點底:這個模型基於 Gemini 3 Pro 打造,能吃進最長 128K token 的音頻上下文,評測就盯著叁個指標死磕——翻譯質量、延遲、語音自然度。

[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦:



