第一句子大全,网罗天下好句子,好文章尽在本站!

论文推介:说话人确认中近场到远场的多层级迁移学习

时间:2022-11-29

近年来,基于深度神经网络的说话人确认技术在可控场景下取得了卓越的性能

作为智能语音领域的热点研究方向,说话人确认(Speaker Verification)旨在根据注册语音判断测试语音与其是否属于同一说话人的一项技术。近年来,基于深度神经网络的说话人确认技术在可控场景下取得了卓越的性能。但是在实际应用场景中,外在不可控的环境噪声、人与设备交互距离所产生的远场语音衰减、房间混响混响以及近场注册与远场验证的域不匹配(domain mismatch)等问题都会导致说话人确认系统性能的大幅度下降。在智能家居等应用场景下,用户通常通过近场设备(如手机)进行声纹注册, 实际使用时可能通过手机(近讲)或者智能音箱和电视(远讲)进行声纹确认,这就会导致注册语音和测试语音的域不匹配问题。如何让说话人确认系统能够更好处理这种在远场说话人确认中域不匹配问题,一直以来都是非常重要的研究课题。

西工大音频语音与语言处理研究组(ASLP@NPU)近年来致力于基于深度学习的稳健性说话人识别研究。去年针对上述远场声纹场景下域不匹配问题 [1],我们探究了传统多通道信号处理、数据增广等方法在提升说话人确认系统的稳健性的重要作用,并以此获得了Interspeech2020远场声纹挑战赛(FFSVC)分布式阵列赛道(任务3)第二名的优异成绩[2]。

图1 实验室参加FFSVC2020竞赛获得任务3的第二名

近期, 实验室针对远场声纹的域不匹配问题开展了更为深入的研究。由实验室与新加坡国立大学(NUS)、新加坡资讯通讯研究院(I2R) 合作提出了使用多层级迁移学习的方案来改善注册语音和测试语音的域不匹配问题, 相关论文" Multi-Level Transfer Learning from Near-Field to Far-Field Speaker Verification" 被语音研究顶级会议INTERSPEECH2021接收[3]。在这项工作中, 我们基于教师-学生(teacher-student)框架,采用瓶颈层特征级和实例级知识迁移来学习领域不变的说话人嵌入空间。在FFSVC2020 评估集上,该模型取得的结果超越了当年竞赛最佳成绩。现对该论文进行简要的解读和分享。

● 论文题目:Multi-Level Transfer Learning from Near-Field to Far-Field Speaker Verification

● 作者列表:Li Zhang, Qing Wang, Kong Aik Lee, Lei Xie, Haizhou Li

● 论文原文:https://arxiv.org/pdf/2106.09320.pdf

图2 发表论文截图

背景动机

在远场说话人确认中,用户注册语音和测试语音的录音条件不匹配(如拾音距离不同)时,说话人嵌入(speaker embedding)的性能会明显下降。针对这种域不匹配问题,最重要的目标是使来自不同域的说话人嵌入的分布尽可能接近。当近讲语音相对比较干净且与远讲语音成对存在时,可以通过将近讲语音的性能迁移到远讲语音的识别中,监督远讲语音获取鲁棒性强的说话人嵌入。教师-学生(T/S)模型框架在这类成对的样本中进行知识迁移是一个潜在的解决方案。FFSVC2020竞赛数据提供了用于说话人嵌入模型训练的近讲-远讲成对数据[1],为开展这方面的研究提供了便利。

当前的基于T/S模型的域自适应主要关注分类准确率的引导和特征级上的说话人嵌入的距离的拉近,但是忽略了不同类之间说话人嵌入的拉远。我们知道,拉大不同类之间的距离同等重要。同时,当前方案也没有关注学生模型对于已训好的教师模型所形成的样本对之间分布的学习,即忽略了实例级别的域迁移。对于说话人确认任务,核心优化目标是类内间距越来越近,类间间距越来越大。在T/S 框架下, 为了保证学生模型拥有教师模型说话人嵌入的可靠性,特征级映射和实例级的类间距分布的一致性都很重要。

为此,本文在T/S框架下, 提出了一种多级层的近场到远场的迁移方案, 来解决远场说话人确认中注册语音与测试语音的域不匹配问题。对于特征级的知识迁移,我们改进对比损失(contrastive loss)来将知识从教师模型转移到学生模型,这不仅可以减少类内距离,还可以扩大类间距离。此外,我们提出了实例级成对距离迁移方法,以强制学生模型保留与教师模型优化好的嵌入空间的成对实例距离。实验结果表明该方法在存在注册语音和测试语音域不匹配时, 能更好的学习到一个域不变的说话人嵌入空间。

提出的方案

我们提出的方法的概述如图4所示,由四部分组成,分别是教师模型、学生模型、特征级迁移学习和实例级迁移学习。特征级和实例级迁移学习部分在嵌入层上运行。特征级迁移学习旨在增加类间距离以及减少类内距离。实例级迁移学习将从教师模型中提取的“锚”说话人嵌入与学生模型提取的说话人嵌入进行比较, 其包含具有相同说话人标签的正样本说话人嵌入和具有不同说话人标签的负样本说话人嵌入。 图4右侧,TES和SES分别是教师嵌入空间和学生嵌入空间的缩写。

图4 基于T/S框架的多级迁移学习

特征级别知识迁移

我们采用对比损失以将知识从教师模型转移到学生模型。在本文的任务中,这种对比损失的“锚点”是从训练有素的教师模型中提取的说话人嵌入。正负说话人嵌入是从学生模型中提取的。由于任务是有监督的,因此可以根据样本的标签计算教师和学生的对比损失,如公式(1)所示。

该公式以从已经训练好的教师模型中提取的说话人嵌入作为“锚”,从两个方面优化学生模型的说话人嵌入空间。一方面减少了与同类说话人嵌入的距离, 另一方面增大了来自不同类说话人嵌入的距离。通过这种方式,用教师模型的说话人嵌入监督学生模型说话人嵌入的学习。

说话人实例级别知识迁移

为了实现学生模型和教师模型的说话人嵌入空间具有相同的分布,我们同时采用实例级别知识迁移。首先用已训好的教师模型生成两两说话人嵌入之间的相似度矩阵,同时计算学生空间的说话人嵌入两两之间的相似度矩阵,如公式(2)和(3)所示。

接着用最小均值误差(MSE)损失减少教师说话人嵌入空间和学生说话人嵌入空间的相似度矩阵之间的距离,如公式(4)所示,从而确保学生模型学习的说话人空间能够和教师模型的说话人空间中实例样本对之间距离的分布一样。

这种方法可以惩罚教师模型和学生模型的成对相似度矩阵的差异,以便我们可以优化学生模型的嵌入空间,使其更接近教师模型的嵌入空间。

实验验证

实验配置

训练集包括两大部分:Openslr网站(https://openslr.org/)公开数据集SLR33, SLR38, SLR47, SLR49, SLR62, SLR82, SLR85;FFSVC2020 训练集。实验结果在FFSVC2020提供的开发集(dev)和评估集(eval)上进行展示。T/S 模型结构为Thin ResNet34-SE[4]。

实验结果

我们在 FFSVC2020 挑战赛的数据集上证明了方法的有效性,实验结果总结于表1和表2。 在所有任务的开发集上, 与其他相对比的迁移学习方法相比,我们的方法取得更为卓越的性能。表1底部三行是消融实验。实验结果表明,特征级知识迁移和实例级知识迁移都是有效的,二者相比与基线都有不同程度的提升。当二者相互结合时,性能提升更为明显。

表 1 FFSVC2020 任务1开发集上的结果

表2 FFSVC2020 任务2和任务3开发集上的结果

与任务2的部分评估实验的融合系统结果相比,我们在完整评估实验上的 EER 相对降低了 13.9%。在 任务1 上,与竞赛第一名在 Partial-eval 实验上的 DenseNet 结果相比,我们在 Full-eval 实验上的 minDCF 相对减少了 6.3%。在 任务3上,本文方法在 Full-eval 实验上的 EER 和 minDCF 与 Partial-eval 实验融合系统的结果非常接近。

表3 FFSVC2020 任务1、2、3评估集上的结果

说话人嵌入分布的可视化

我们从评估中随机选择 35 位说话人进行进一步分析。每个说话人选500 说话人嵌入使用 t-SNE可视化其分布。图5中上面的三张图是不采用本文提出方案所画出的说话人嵌入分布,可以观察到可视化嵌入空间更加混乱,其中红色圆圈线标记了说话人混淆的情况。图5下面三张图显示了使用提出的多级迁移学习方法的说话人嵌入分布,很明显可以看出,不同说话人的嵌入分布边界更加清晰,尤其是在任务2上更为明显。

图5 说话人嵌入分布的可视化(t-SNE)

结论

本文的主要贡献是解决远场说话人验证中的不匹配问题,基于师生(T/S)学习框架,利用特征级和实例级的多级迁移学习方法,构建域不变的说话人嵌入空间。在 FFSVC2020 开发集上,与基线方法相比,本文方法的 EER 在任务1、2 和 3 他们分别相对降低了 22.8%、38.6%、32.8%。在 FFSVC 2020 评估集上,我们在 Full-eval 实验上的结果甚至优于竞赛冠军在任务2 的 Partial-eval 实验中发布的融合系统结果。这些实验结果证明了本文提出的多级迁移学习是解决远场声纹应用中域不匹配问题的有效方案。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
希望刷到我文章的人 永远都不会有机会理解这些句子的含义

希望刷到我文章的人 永远都不会有机会理解这些句子的含义

很久很久以后,那些零散琐碎的记忆我再也不愿意回忆,爱情死了,但我得活。1.老舍曾说过,从前没有胭脂,女子的脸只为情郎而红,最后,情郎负了姑娘,姑娘从此爱上了胭脂和浪荡。2.你还是你,由我一喊心就颤的名字。3....

2023-01-23 #经典句子

朋友圈文章句子:你的勤奋总是过去完成时 人家的勤奋总是进行时

朋友圈文章句子:你的勤奋总是过去完成时 人家的勤奋总是进行时

这世界上有两种力量,一种如璀璨烟花,一种如流深静水,前者短绚弥散,后者涓涓不息。有一种鸟是没有脚的,它只能一直飞呀飞呀,飞累了就在风里面睡觉,这种鸟一辈子只能下地一次,那一次就是它死亡的时候。你的勤奋...

2023-05-20 #经典句子

高考英语作文高分秘诀:让文章显得高级的万能提分句子 作文满分

高考英语作文高分秘诀:让文章显得高级的万能提分句子 作文满分

高考成绩已经发榜,北京有网友在乘坐出租车时拍到了一幕感人的画面,司机师傅接到女儿的报成绩的电话,欣慰的夸了句“姑娘真争气”,便匆匆地挂断了。挂断之后,师傅却抑制不住情绪,抹起了眼泪。这届的考生不容易,...

2022-11-11 #经典句子

句子是构成文章的基本单位 仿照例子 完成练习

句子是构成文章的基本单位 仿照例子 完成练习

仿写句子.家是精美的相册,记录着我成长的足迹;家是___,___ 着___;家是___,___.答案解析例句的第一个分句是个比喻句,把“家”比作“精美的相册”,作用是记录着我成长的足迹,其他两个分句据此仿写为:家是情感的苗圃,栽...

2022-11-20 #经典句子

据为己有(高干) 污到你那里滴水的句子文章

据为己有(高干) 污到你那里滴水的句子文章

据为己有(高干)…她被他当着丈夫的面,在医院的病房里,千得泪流满面……下方内容与正文无关,可忽略。之来得面要方一为有给是谈不情起拿补你平解,在你冷不补理从乎的甚己任过的切他非这实样时了非瘩在的此自,的个...

2022-11-29 #经典句子

句子在文章中的作用(读书笔记)

句子在文章中的作用(读书笔记)

一、语句在文章结构上的作用。总起全文、引起下文(引出正文),打下伏笔,承上启下(过渡),交待故事发生的背景(时间、地点、天气环境等)为下文做铺垫,前后照应、总结全文,点题,推动情节发展。 二、语句在表...

2023-02-06 #经典句子

副词能作表语吗?看完这篇文章秒懂副词的句子成分

副词能作表语吗?看完这篇文章秒懂副词的句子成分

副词的用法1、作状语副词作状语时,常用来修饰动词、形容词、另一副词、数词、介词短语或全句The visitors were warmly received by the hosts.客人受到了主人的热情接待。( 修饰动词 )These boxes are quite heavy.这些箱子相当重。( 修饰...

2022-12-13 #经典句子

萧红文章里那些清冷又寂寞的句子

萧红文章里那些清冷又寂寞的句子

萧红(1911-1942),中国近现代女作家,"民国四大才女"之一,被誉为"20世纪30年代的文学洛神"。乳名荣华,学名张秀环,后由外祖父改名为张乃莹。笔名萧红、悄吟、玲玲、田娣等。1911年,出生于黑龙江省哈尔滨市呼兰区一个封建...

2023-01-28 #经典句子

高考倒计时 学几句唯美古风句子 给自己的文章增添文采!

高考倒计时 学几句唯美古风句子 给自己的文章增添文采!

离一年一度的高考还有几天时间,在紧张而激动的氛围当中,抽出时间读读一些唯美的古风句子,也是一个格外宁静的享受,对于缓解高考紧张的气氛有很大的帮助,或许,在高考作文中还能用的上几句,品读古风,在古韵当中...

2023-02-01 #经典句子