趣文网,分享全网好句子、好文章!

巴别鱼雏形 谷歌推出端到端语音翻译技术 还能模仿你说话

时间:2023-11-09 06:40:01

相关推荐

巴别鱼雏形 谷歌推出端到端语音翻译技术 还能模仿你说话

大数据文摘出品

编译:周素云

“这是全宇宙最奇特的生物。”

40年前,英国科幻作家Douglas Adams在他的《银河系漫游指南》中这样描述巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的语言概念为食,消化后排出跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各种语言。

而在这个充满嬉皮风格的科幻作品中,来自地球的Arthur Dent也因为这条丑陋的鱼,能够完美地理解并与他遇到的各种外星种族交流。

自小说诞生,巴别鱼便成为了即时语音翻译的代名词。但在当时,人类的翻译技术距离这一目标仍遥不可及。

直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神经网络的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经网络的出现,让优质高效的机器翻译不再遥遥无期。

每次技术的突破都让我们离巴别鱼更近一步,直到今天,谷歌的发布了一项新研究Translatotron,这是一种可以实现端到端的语音转语音的翻译技术。该工具放弃了将语音翻译成文本在返回语音的步骤,可以直接从一种语言转换成另外一种语言,并同时保持说话着的语调和节奏。

告别Siri,我们先来感受一下翻译的调调:

通过结合扬声器编码器网络,使得Translatotron能够在翻译的语音中保留原始扬声器的声音特征,这使得翻译的语音听起来更自然,更少刺耳。

更多声音样本可以在Translatotron的Google Research的Github页面上找到。

此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。扬声器编码器在specker verification任务上预先训练,学习从简短的示例话语对扬声器特性进行编码。即使内容是不同的语言,该编码上调节频谱图解码器也可使得合成具有类似扬声器特性的语音。

Translatotron模型

其实语音翻译的端到端模型的早在2016年就开始出现了,当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。

2017年,谷歌研究员们证明了这种端到端模型可以胜过cascade模型。之后又进一步改进许多端到端语音到文本翻译模型的方法。

最终在2019年,谷歌的研究员们在arXiv发表Translatotron模型,通过证明单个序列到序列模型可以直接将语言从一种语言翻译成另一种语言的语音,而不依赖于任何一种语言的中间文本表示。

Translatotron基于序列到序列网络将源光谱图作为输入并生成目标语言中的翻译内容的光谱图输出。它还使用了另外两个经过单独训练的组件:神经声码器将输出频谱图转换为时域波形,使用扬声器编码器来保持合成的翻译语音中源说话者的语音的特征。

在训练期间,序列到序列模型使用多任务目标来在生成目标谱图的同时预测源和目标转录物。

Translatotron的模型结构

该团队称,翻译的准确性并不如传统翻译系统那么好,传统系统有更多时间来磨练其准确性。但Translatotron是第一个能够将语言从一种语言直接翻译成另一种语言的语音的端到端模型。他们希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(3)
  1. 李灿妮儿2024-01-23 06:18李灿妮儿[内蒙古网友]27.103.175.125
    这功能太神奇了,会不会被用来进行欺诈活动呢?有点担心。
    顶35踩0
  2. 爱玩的菇凉很霸气°2023-12-29 06:25爱玩的菇凉很霸气°[广西网友]45.125.100.208
    谷歌的技术真是越来越先进了,期待能够尽快实现啊!
    顶2踩0
  3. 秋凝蓝殇2023-12-04 06:32秋凝蓝殇[江苏省网友]203.28.196.224
    这简直就是科幻电影里的未来啊,太厉害了!
    顶0踩0
相关阅读
谷歌语音助手自主电话功能开放公测 仅限餐馆理发店场景

谷歌语音助手自主电话功能开放公测 仅限餐馆理发店场景

在今年的Google I O开发者大会上,谷歌智能语音助手可以模拟餐馆服务员,接通用户的电话进行点餐

2016-02-08

谷歌人工智能癌症研究登上自然杂志;对抗网络的高保真语音合成

谷歌人工智能癌症研究登上自然杂志;对抗网络的高保真语音合成

以下是两项研究的简要介绍:「使用深度学习提高前列腺癌的评分」是谷歌人工智能小组去年发布的的一项研究,并于今年六月进行了更新

2020-04-24

语音生成效果评价不再逐句进行:谷歌提长文本语音生成评价新系统

语音生成效果评价不再逐句进行:谷歌提长文本语音生成评价新系统

但生成的语音是否逼真自然,又如何进行评价呢?传统的评价方法往往局限于单独语句,而无法对整段生成语音的效果进行全面系统的评价

2023-05-18

谷歌推出首款基于机器学习的古埃及象形文字翻译工具Fabricius

谷歌推出首款基于机器学习的古埃及象形文字翻译工具Fabricius

不管是普通人还是学者都能利用这个工具体验象形文字,或者助力学术 研究

2019-01-22