第一句子大全,网罗天下好句子,好文章尽在本站!

多人说话时自动分离语音 谷歌发布逆天深度学习模型

时间:2010-01-23

然后谷歌这次把人声处理提升到了一个新高度:在多人同时说话的视频中屏蔽其他人语音,只播放一个人的语音

友情提示:本文共有 473 个字,阅读大概需要 1 分钟。

在一段音频中消除背景噪音,让人的语音更清晰已经是十分成熟的技术。然后谷歌这次把人声处理提升到了一个新高度:在多人同时说话的视频中屏蔽其他人语音,只播放一个人的语音。(文中图片于Google Research Blog)

Google Research Blog在4月11日发布了一篇图/文/视频并茂的文章概述了这项叫“Audio-Visual Speech Separation(音频视觉分离)”的深度学习技术。

为了达到预想的效果,研究人员先人工分离了10万个不同视频中人的语音。研究人员把这些语音和相对应的人说话时面部动作,以及背景噪音交给了一个基于多串流卷积神经网络的深度学习模型。该模型通过这些数据自主学习,最终获得了音频视觉分离的能力。

谷歌给出了几个视频例子,可以听出该模型的音频分离非常准确清晰。如果这项技术继续发展,我们很可能会能在公共场合监控视频里分离并加强人群中一个人的语音。这可以被利用于犯罪侦查与反恐,但也有潜力变成窥探个人隐私的隐患。或者该技术也能帮手机智能助手更好地分辨出主人的声音。

本文编辑:张哲

关注泡泡网,畅享科技生活。

本文如果对你有帮助,请点赞收藏《多人说话时自动分离语音 谷歌发布逆天深度学习模型》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
谷歌人工智能癌症研究登上自然杂志;对抗网络的高保真语音合成

谷歌人工智能癌症研究登上自然杂志;对抗网络的高保真语音合成

...自然系列杂志上发布了两个得癌症病理项目:前列腺癌的深度学习以及用于癌症检测的增强现实显微镜。以下是两项研究的简要介绍:「使用深度学习提高前列腺癌的评分」是谷歌人工智能小组去年发布的的一项研究,并于今年...

2020-04-24 #经典句子

巴别鱼雏形 谷歌推出端到端语音翻译技术 还能模仿你说话

巴别鱼雏形 谷歌推出端到端语音翻译技术 还能模仿你说话

...的各种外星种族交流。自小说诞生,巴别鱼便成为了即时语音翻译的代名词。但在当时,人类的翻译技术距离这一目标仍遥不可及。直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神...

2023-11-09 #经典句子

谷歌最新黑科技LaMDA 能让你的语音助手不再智障吗?

谷歌最新黑科技LaMDA 能让你的语音助手不再智障吗?

... 腾讯研究院研究员到了今天,已经很少有人会把“智能语音助手”当回事,更多人把它看作是“智障”的同义词。自苹果的Siri在2016年发布以来,相关技术一轮又一轮地革新,模仿者一个又一个地出现。但智能助手的智能化程...

2023-07-09 #经典句子

开源|谷歌发布最新“天马”模型 自动生成文本摘要已超越人类!

开源|谷歌发布最新“天马”模型 自动生成文本摘要已超越人类!

...架构。而且事实证明,在处理诸如机器翻译、文本摘要、语音识别、问答系统等多种语言任务时,只需进行微调,即可达到SOTA性能。但是,Transfromer的自监督目标(self-supervised)更偏通用性,与下游语言任务联系性不强,也就是...

2023-05-05 #经典句子

谷歌高管:语音技术重要性超AI 发展中国家体现最明显

谷歌高管:语音技术重要性超AI 发展中国家体现最明显

...不过谷歌搜索业务服务人本·戈麦斯持否定态度,他觉得语音技术才是科技发展最关键的技术,因为语音技术连接着普通语言对互联网,这才是未来。在记者的采访中,戈麦斯表示:“语音识别和语言理解是未来搜索和信息的核...

2023-11-14 #经典句子

谷歌语音助手自主电话功能开放公测 仅限餐馆理发店场景

谷歌语音助手自主电话功能开放公测 仅限餐馆理发店场景

...)据CNBC消息,谷歌宣布将几周内在纽约和旧金山对智能语音助手订餐服务进行公开测试,届时部分“受信任的测试人员和精选商家”可以接入这项功能。在今年的Google I/O开发者大会上,谷歌智能语音助手可以模拟餐馆服务员,...

2016-02-08 #经典句子

能牺牲大语种 提升小语种翻译质量的谷歌多语言机器翻译

能牺牲大语种 提升小语种翻译质量的谷歌多语言机器翻译

...5 BLEU。他们还探究了非常深的网络的其它特性,比如网络深度宽度间的取舍、网络的可训练性,甚至尝试了进一步把网络拓展到超过 1500 层、含有超过 840 亿个参数。提升模型容量的方法也并不只有直接增加深度一种,还有一种...

2023-12-16 #经典句子

语音生成效果评价不再逐句进行:谷歌提长文本语音生成评价新系统

语音生成效果评价不再逐句进行:谷歌提长文本语音生成评价新系统

...译参与:高璇随着未来 5G 移动互联网网络的飞速发展,语音交互将有可能取代键盘和触摸成为语音输入的主导方式。但生成的语音是否逼真自然,又如何进行评价呢?传统的评价方法往往局限于单独语句,而无法对整段生成语...

2023-05-18 #经典句子