第一句子大全,网罗天下好句子,好文章尽在本站!

语音生成效果评价不再逐句进行:谷歌提长文本语音生成评价新系统

时间:2023-05-18

但生成的语音是否逼真自然,又如何进行评价呢?传统的评价方法往往局限于单独语句,而无法对整段生成语音的效果进行全面系统的评价

友情提示:本文共有 2187 个字,阅读大概需要 5 分钟。

选自googleblog

作者:Tom Kenter

机器之心编译

参与:高璇

随着未来 5G 移动互联网网络的飞速发展,语音交互将有可能取代键盘和触摸成为语音输入的主导方式。但生成的语音是否逼真自然,又如何进行评价呢?传统的评价方法往往局限于单独语句,而无法对整段生成语音的效果进行全面系统的评价。近日,谷歌研究人员对评价多行文本生成语音的几种方法做了对比,并给出了不同语音呈现方法下的平均意见得分(MOS)结果。

自动生成的语音无处不在,从驾驶中的人声导航,到手机上的虚拟助手,还有家中的智能扬声器设备。虽然为了使生成语音更加逼真而进行了大量研究与实验,例如为低资源语言(low-resource language,LRL)生成语音以及使用 Tacotron 2 创建模仿人类的语音,但如何评价生成的语音呢?找出答案的最好方法是询问那些能分辨出声音是否「以假乱真」的专业人士。

在语音生成领域,受试者常被要求听生成语音的样本并对其进行评分。然而截止目前,对生成语音效果的评价一直是基于单独的语句。但人们往往更想知道某一段生成语音的效果,例如新闻报道中的段落或一段对话。这就有趣了,因为有很多方法可以用来评价以自然语序呈现的句子,并且令人惊讶的是,这些不同的方法之间尚未进行过严格的比较。这反过来又会阻碍依赖生成语音的产品的研究进展。

为了应对这一挑战,谷歌在 SSW10 上发表了名为《Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs》的论文。研究人员在论文中对比了评价多行文本生成语音的几种方法。研究发现,当一个句子被评定为包含多个句子的长文本的一部分时,音频样本呈现给评价者的方式会对评价结果产生影响。例如,当句子单独出现时,人们给出的评级通常与他们在某些情境下听同一句话时所给出的评级大不相同(上下文不需要进行评级)。

论文地址:https://ai.google/research/pubs/pub48349

评价自动生成的语音

确定语音信号质量的通常做法是,让几个评价者对某一样本给出 1 到 5 的评级。该样本既可以是自动生成的,也可以是自然语音(即真人大声念出的句子)。对评价特定语音样本的所有人员给出的分数求平均值,然后得出 MOS。

截止目前,MOS 评级通常是逐句进行的,即评价者在听取独立的句子后给出他们的意见。研究人员提出以三种不同的方式将语音样本呈现给评价者——有上下文和无上下文——证明每种方法都会产生不同的结果。

第一种方法是单独呈现句子,这是该领域通常采用的默认方法;另一种方法是为句子提供完整的上下文,即包括句子所属的整个段落,并对整体进行评级;最后一种方法是提供一个上下文激励对。此时不提供完整的上下文,仅提供部分上下文,例如来自最初段落的前一句话。

有趣的是,即使在评价自然语音时,这三种不同的语音呈现方法也会产生不同的结果。

具体结果如下图所示,三种颜色分别代表使用三种不同方法评价自然语音样本的 MOS 分数。尽管接受评级的句子相同,但由于上下文的不同,相应得分也有所不同。

新闻报道 MOS 结果来自新闻数据集中的自然语音。虽然差异不大,但不同条件下的差异还是很重要(系数α= 0.05 的双尾 t 检验)。

从上图可以看出,即使是录制的真实人声,评价者也很少给出最高分(5 分)。然而,这是在句子评价研究中会出现的典型结果,这可能与一种常见的行为模式有关,即无论任务或设置怎样,人们往往避免给出极端评价。

在评价生成语音时,差异更明显。

同一新闻报道数据集的生成语音 MOS 结果。除非另有说明,否则以上均为生成语音。

为了查看上下文的呈现方式是否对评价结果产生影响,研究人员尝试了几种不同的方法:在要评价的句子前添加一至两个作为生成或真实语音的句子。当添加上下文时,分数变得更高(上图左侧四个蓝色条);若呈现的上下文是真实语音,则分数下降(上图最右侧蓝色条)。研究人员假设这与锚定效应(anchoring effect)有关——如果上下文非常好(真实语音),则生成语音相比之下就不太自然。

预测段落得分

当播放完整的生成语音段落(上图黄色条)时,会被认为较其他语音设定不自然。研究人员最初假设存在一个最薄弱的关联论证——评级结果可能与该段中最差的句子保持一致。如果是这种情况,应该很容易通过参照其中单个句子的评级来预测整个段落的评级,也许只采用最小值即可得到段落评级。然而事实证明,这种方法行不通。

最薄弱关联假设的失败可能是因为使用这种简单方法难以梳理更细节的因素。为了验证这一点,研究人员还训练了机器学习算法来基于单个句子预测段落得分。但是,这种方法也无法成功预测段落得分。

结论

当涉及多个句子时,生成语音的评价并不容易。单独评定句子的传统方法并不能给出全面的解读,并且在提供上下文的情况下评价者应注意锚定效应。因此,对完整段落进行评价可能是最保守的方法。研究人员希望他们的研究结果有助于推进长篇语音生成领域未来的研究,例如有声读物和会话智能体。

原文链接:https://ai.googleblog.com/2019/09/assessing-quality-of-long-form.html

本文为机器之心编译,转载请联系本公众号获得授权

本文如果对你有帮助,请点赞收藏《语音生成效果评价不再逐句进行:谷歌提长文本语音生成评价新系统》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
谷歌将推出103种语言翻译模型 针对250亿句子训练 有500亿参数

谷歌将推出103种语言翻译模型 针对250亿句子训练 有500亿参数

谷歌,喻有“人类文明开拓者”之称,足以看得出谷歌的地位和口碑,经历过华为的事件之后,大家也能看得出谷歌的影响力。对于谷歌来说,小种语言因为缺少平行数据,所以翻译的时候也缺乏着一定的优势。不过有关谷歌的...

2023-05-18 #经典句子

谷歌翻译全新改版 文档翻译功能瞩目

谷歌翻译全新改版 文档翻译功能瞩目

自从谷歌浏览器正式改版MD之后,近日终于又迎来了王牌产品谷歌翻译的改版。作为谷歌“最成功”的产品之一,谷歌翻译这一次的更新带来了外观和功能上的改进。谷歌产品经理James Kuczmarski表示:“自推出12年以来,谷歌翻译...

2024-01-05 #经典句子

支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?

支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?

谷歌表示,在提高语言翻译的质量方面,已经取得了进展。在即将发表的博客文章中,该公司详细介绍了新的创新技术,这些创新技术增强了Google翻译(Google Translate)支持的108种语言(特别是数据贫乏的约鲁巴语和马拉雅拉姆...

2023-05-05 #经典句子

谷歌 Chrome 90 新功能:可创建定位到句子的网页链接

谷歌 Chrome 90 新功能:可创建定位到句子的网页链接

IT之家 4 月 18 日消息 谷歌 Chrome 浏览器 90 正式版于近日正式发布,浏览器带来了多项新功能,将自动使用 HTTPS 补充网址 URL 并提交给服务器。此外,还带来了 AV1 编解码器、窗口重命名等功能。根据外媒 TheVerge 消息,一些用户...

2022-12-21 #经典句子

谷歌人工智能新突破:让你用AI来玩文字游戏

谷歌人工智能新突破:让你用AI来玩文字游戏

近日,谷歌在AI上又有新成果,它成立了一个语意体验网站,其中有趣的一个应用是:Talk to Books。这个功能可以让人们以自然语言与超过10万本的书籍进行交流,另一个Semantris则是一个词汇联想的游戏,它会指定一个词作为题目...

2010-04-18 #经典句子

能牺牲大语种 提升小语种翻译质量的谷歌多语言机器翻译

能牺牲大语种 提升小语种翻译质量的谷歌多语言机器翻译

雷锋网(公众号:雷锋网) AI 科技评论按:近期,谷歌拓展了机器翻译系统的边界:用所有可用的数据训练一个超大规模的多语言神经机器翻译系统。这不仅是一次大胆的尝试,也更新了我们对机器翻译模型的一些认识。雷锋网 AI...

2023-12-16 #经典句子

谷歌高管:语音技术重要性超AI 发展中国家体现最明显

谷歌高管:语音技术重要性超AI 发展中国家体现最明显

...媒体与用户关注的焦点,它们被称为划时代的技术。不过谷歌搜索业务服务人本·戈麦斯持否定态度,他觉得语音技术才是科技发展最关键的技术,因为语音技术连接着普通语言对互联网,这才是未来。在记者的采访中,戈麦斯...

2023-11-14 #经典句子

三大在线翻译评测!谁能搞定方言和文言文?

三大在线翻译评测!谁能搞定方言和文言文?

...是需要用到的。 这里参与对比的是很多用户最常使用的谷歌翻译,有道翻译,以及一家小众翻译平台,但最近大热的---DeepL。 先说结论: DeepL干翻了几乎所有知名的翻译平台。 方言翻译:我们从最难的方言开始对比:1.你贼好...

2023-10-15 #经典句子

推断速度达seq2seq模型的100倍 谷歌开源文本生成新方法LaserTagger

推断速度达seq2seq模型的100倍 谷歌开源文本生成新方法LaserTagger

...使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷,谷歌研究人员提出新型文本生成方法 LaserTagger,旨在解决这些缺陷,提高文本生成的速度和效率。序列到序列(seq2seq)模型给机器翻译领域带来了巨大变革,并成为多种...

2023-05-18 #经典句子