[谷歌] 谷歌干掉了"等你说完才翻译" 70+语言边听边译
一句话还没说完,译音已经响在你耳边——而且是对方的语速、对方的语调,只慢几秒。刚刚,Google 甩出了 Gemini 3.5 Live Translate。这是它最新的语音对语音翻译模型,一句话概括:把“等你说完再翻”的老规矩,直接掀了。
Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣,字里行间透着一股“二十年磨一剑”的底气:
语音翻译是 Google 跑得最久的机器学习项目之一,而这一次,它终于跑进了耳机。
把“对讲机”式翻译给掀了过去的翻译机大家都熟。
你说一句,它憋着,等你把话说完,再吭哧吭哧翻给对方。
一来一回,节奏全断,俩人像在打对讲机。
更要命的是,真实对话从来不是规规矩矩的你一句我一句——人会抢话、会犹豫、会说半截改口。
Gemini 3.5 Live Translate 不这么干。它边听边译,话音未落,译音先到。
这背后是一套相当微妙的平衡术:多等一会儿,上下文听得更全,翻得更准;立刻开口,能紧紧跟住说话人,但可能猜错后半句。


模型就在这两头之间逐字逐句地反复拿捏,最终交出的效果是——输出连贯、没有尴尬的卡顿,全程只落后说话人几秒。
更绝的是声音本身。
它能保留你的语速、音高和语调——译出来的不是冷冰冰的机器音,是带着你说话味儿的声音。你着急,译音也跟着急;你慢条斯理,译音也悠着来。
DeepMind 同步放出的模型卡透了点底:这个模型基于 Gemini 3 Pro 打造,能吃进最长 128K token 的音频上下文,评测就盯着三个指标死磕——翻译质量、延迟、语音自然度。

[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣,字里行间透着一股“二十年磨一剑”的底气:
语音翻译是 Google 跑得最久的机器学习项目之一,而这一次,它终于跑进了耳机。
把“对讲机”式翻译给掀了过去的翻译机大家都熟。
你说一句,它憋着,等你把话说完,再吭哧吭哧翻给对方。
一来一回,节奏全断,俩人像在打对讲机。
更要命的是,真实对话从来不是规规矩矩的你一句我一句——人会抢话、会犹豫、会说半截改口。
Gemini 3.5 Live Translate 不这么干。它边听边译,话音未落,译音先到。
这背后是一套相当微妙的平衡术:多等一会儿,上下文听得更全,翻得更准;立刻开口,能紧紧跟住说话人,但可能猜错后半句。


模型就在这两头之间逐字逐句地反复拿捏,最终交出的效果是——输出连贯、没有尴尬的卡顿,全程只落后说话人几秒。
更绝的是声音本身。
它能保留你的语速、音高和语调——译出来的不是冷冰冰的机器音,是带着你说话味儿的声音。你着急,译音也跟着急;你慢条斯理,译音也悠着来。
DeepMind 同步放出的模型卡透了点底:这个模型基于 Gemini 3 Pro 打造,能吃进最长 128K token 的音频上下文,评测就盯着三个指标死磕——翻译质量、延迟、语音自然度。

[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐:



