第一句子大全,网罗天下好句子,好文章尽在本站!

今年国际语音合成大赛第一名 来自这个团队

时间:2023-12-14

大部分人的理解中,智能语音就是语音识别你对着Siri讲一段话,Siri把你不标准的普通话变成文字,并对你无理取闹的问题作出解答;或者你用微信说一段话,

友情提示:本文共有 2954 个字,阅读大概需要 6 分钟。

说出来你可能不信,你根本不了解什么是 智 能 语 音。

大部分人的理解中,智能语音就是“语音识别”——

你对着Siri讲一段话,Siri把你不标准的普通话变成文字,并对你无理取闹的问题作出解答;或者你用微信说一段话,转换成文字,发给讨厌的甲方爸爸——这就是你对智能语音的全部理解。

智能语音,不光是识别语音,也能把语音转化成文字后,再转换成语音,而且在说话人相似度、表现力、发音准确率、语音质量上保持高度相似和逼真。这就是TTS。

简单的说,就是把孙悟空声音录进去,然后机器阅读一段文字,用孙悟空的音色、语气再说出来。

文语转换(TTS)又称为语音合成,旨在将文本转换成自然语音的一类技术,是智能语音领域的前沿技术,在语音助手、信息播报、有声读物等方面具有重要的应用价值。

在2021年声学、语音和信号处理国际会议(ICASSP2021)的信号处理挑战旗舰任务——多说话人多风格音色克隆大赛(M2VoC)上,来自猿辅导人工智能实验室的研究团队获得子赛道第一名。

▲就是这五位靓仔组成的队伍

这表明,我国在智能语音的部分关键核心技术和应用上取得重要进展。

智能语音是人工智能技术的重要组成部分, 在经济社会中可以运用于配音合成、智能出题、智能客服诸多应用场景。此次在语音合成技术方面取得实质进展,未来能够被进一步应用到教育、医疗等行业和领域中,大大提高行业效率。

杨明祺和马楠是猿辅导AI 研究院语音实验室语音合成小组的研发人员,他们只凭借极少量的数据,把指定的文本,用特定的“音色”说了出来。提起参赛经历,二人都说好成绩来源于平时工作的积累。他们认为,语音合成(TTS)包括一些相关技术,在教育领域会有比较重要的应用,科技将给教育带来全新的改变。而这种改变,将成为杨明祺和马楠乃至整个猿辅导AI 研究院继续探索的动力。

━━━━━

语音合成中浓浓的教育情怀

作为国际语音领域为数不多的顶级会议, M2VoC挑战赛旨在提供一个通用的数据集以及一个公平的测试平台,对语音克隆任务进行研究。杨明祺和马楠斩获第一名的是极少样本赛道中的子赛道B,他们在小样本条件下实现了效果更佳的语音合成。

“语音合成就是我们输一个文本进去,然后它产生一个语音。” 杨明祺介绍说,主办方会对收集到的语音合成系统进行评估,系统转化的语音与样本相似度越高,发音越准确,获得的得分就越高。“在20个队伍里,拿到(极少样本开集)子赛道第一名,我们有点意外。技术领域的大牛很多,我们也会继续努力。”

一边是跟最前沿的科技打交道,一边是杨明祺和马楠都对教育有着浓厚的情结。马楠的父亲是教师,亲戚中也有不少教师,马楠从小在教师家庭长大,见证了教书育人的全过程,他比任何人都懂得老师的辛苦与付出,“我的一位研究生同学在猿辅导成立早期加入了公司,他联系我说,猿辅导的团队氛围好,工程师文化浓郁,想要打造一支研发队伍把最前沿的科技应用到教育领域,建议我试试看。” 马楠说, “能加入猿辅导的研发团队,能通过自己的努力让教育更加高效,我感觉自己很幸运。”

在马楠看来,语音技术的创新可以让老师们“轻松”一点。语音技术在教育领域的深度应用,能够帮助教师借助AI完成简单的语音读题、英文听力出题等辅助工作,将进一步释放老师的备课压力,让老师可以把更多精力投入到教学研究中去。而口语评测技术,可以实现机器对学生在语言学习中的发音做打分和反馈,帮助学生实现随时随地练习。

除此,海外研究表明,文语转换对阅读困难儿童教育干预有积极作用。不仅可以帮助他们实现“视听结合”的阅读,也可增进他们的阅读动机,帮助学习不良的学生变成更加独立阅读者。

━━━━━

参赛作品出自日常研发内容

在猿辅导公司的产品线里,小猿口算和猿辅导网课等都有一些环节里需要用到音频读题,语音合成小组的工作就是研发把题目的文本转化成读题音频的方法。有时候,还需要根据老师的需求,控制合成句子的发音、语调、语速,可以说,杨明祺和马楠所在团队的日常积累,为参赛获奖奠定了良好的基础。

在英语听力练习中,对一些发音有非常严苛的要求。“找国外专业的语音公司去录制,至少需要一周时间制作,如果我们提出修改意见,再次返回录制好的语音又需要一周时间。”杨明祺说,““现在,一句10秒长度的句子,不到1秒就可以完成语音转化,就算有修改也能及时合成新的语音,对教学效率带来了巨大提升。”杨明祺说。

辅导老师平时有许多出题工作,帮助学生巩固知识。他们会向研发团队提出通过技术提升效率的需求,研发团队则会想办法结合最先进的技术来满足和实现。“这次比赛,能取得比较好的成绩,一个关键原因是我们在语音合成中加入了韵律信息,它让语音合成的效果更加自然。”马楠表示。

据了解,语音合成技术是人机对话的一部分,让机器会说话。这项技术能对文本文件进行实时转换,转换时间可以秒计算。同时,输出的语音音律也会更加流畅,毫无机器语音输出的冷漠与生涩感。

猿辅导的语音合成小组目前共6人,平均年龄28岁。杨明祺和马楠大概用了一周的时间去准备比赛方案。二人比赛用的方案,来自平时工作中的一些模块,而这些模块基本上是由所有小组成员共同完成的。杨明祺和马楠总说:“我们的好成绩是大家一起努力的结果。”

━━━━━

驱动科技给教育带来全新变革

2014年,猿辅导在线教育成立行业首家AI研究院,致力于引领全球尖端科技在教育场景应用的研发和探索。猿辅导AI研究院主体由语音实验室、视觉实验室、自然语言理解实验室、音视频实验室和基础支撑五个实验室组成,成员规模接近百人,均来自清华、北大、中科院、微软等知名学府和顶尖机构。猿辅导AI研究院以“研发重投入,聚焦最前沿”为方针,驱动科技给教育带来全新变革。

2018年,猿辅导AI研究院的MARS数据模型获“MS MARCO机器阅读理解水平测试”第一名,微软官方称“在阅读理解能力上首次超越人类平均水平”。研究院《基于人工智能的少儿教育发展研究》课题于2020年3月正式入选教育部国家级重点课题,猿辅导成为首家入选国家级重点课题研究的在线教育企业。

不仅如此,猿辅导还让大数据赋能精准教育。目前,猿辅导拥有300多亿次的学生学习行为数据,这些数据有助于反哺网课教学环节,聚焦学生薄弱环节,实现因材施教。同时,利用海量数据持续迭代优化算法,对图像、声音、文字等复杂信息对象进行精确的识别和分析,已经应用到拍照搜题、口算检测、作文智能批改、背诵检测、口语评测、学习路径规划等产品功能中,使学习更加高效。

“如果眼光放长远一些,随着人工智能和其他前沿技术的进步,技术可能会给教育带来更多积极的影响,使教和学的体验更好,效率更高。”马楠举了几个例子,比如,语音、语言和视觉技术进步后,可以结合视觉和语音技术指导语言学习,或者启发式地指导学生解题;再比如,通过智能化的教学内容生成,把知识自动或半自动地生成儿歌、动画等易于接受的形式,将大大提高学习的趣味性;亦或是,通过虚拟现实、增强现实技术,让教学更有沉浸感、参与感。到那时,学习关于长城的课文,长城的景象可以虚拟化的、沉浸式地出现在学生面前;上物理课时,也可以虚拟化地完成一些复杂的实验。

杨明祺和马楠坚信,科技在教育领域有更为广泛的应用,这将全方位提升孩子的学习能力和学习兴趣,切实帮助老师和家长减轻负担。

值班编辑 吾彦祖

本文如果对你有帮助,请点赞收藏《今年国际语音合成大赛第一名 来自这个团队》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(4)
  1. 鸟飞的声音2024-01-18 00:18鸟飞的声音[海南省网友]180.129.191.85
    恭喜这个团队在国际语音合成大赛上脱颖而出!
    顶0踩0
  2. 情湮晴烟2024-01-09 07:23情湮晴烟[四川省网友]27.156.171.94
    真的太棒了!他们的成绩证明了他们的努力和实力。
    顶7踩0
  3. 残桥断梦2023-12-31 14:28残桥断梦[黑龙江省网友]180.88.163.142
    今年国际语音合成大赛的第一名果然名不虚传!
    顶6踩0
  4. ____三十而立2023-12-22 21:33____三十而立[广西网友]118.227.149.99
    这个团队太厉害了,他们的语音合成技术简直令人惊叹!
    顶0踩0
相关阅读
智能语音领域取得突破:猿辅导斩获国际人工智能赛事冠军

智能语音领域取得突破:猿辅导斩获国际人工智能赛事冠军

...公布的比赛结果显示,来自猿辅导人工智能实验室的研究团队在“M2VoC(多说话人多风格音色克隆大赛)”中获得子赛道第一名。这表明该研究团队在智能语音的部分关键核心技术和应用上取得重要进展。作为2021年声学、语音和...

2018-05-17 #经典句子

深度对话语音行业专家李秀林:十年坚守初心 加入创业公司

深度对话语音行业专家李秀林:十年坚守初心 加入创业公司

...,加入百度,迎接新的挑战。任职百度期间,李秀林带领团队先后完成了在线语音合成、离线语音合成系统的研发,使语音合成技术在百度的多条业务线得以应用。随后,李秀林开始专心攻克百度小说频道这一特定场景。由于小...

2009-11-17 #经典句子

用英语传递“国际张”的美好 访“热LOVE新湖南”2021湖南省线上英语短视频大赛大众组

用英语传递“国际张”的美好 访“热LOVE新湖南”2021湖南省线上英语短视频大赛大众组

...速裁法庭就是你的旅行锦囊,都有法律为你护航!”获奖团队的成员们,希望通过新湖南客户端将这句话传播到更远的地方。[责编:王为薇][来源:湖南日报·新湖南客户端]用英语传递“国际张”的美好 访“热LOVE新湖南”2021湖南省...

2019-12-06 #经典句子

探秘世赛“货运代理”集训基地:全英文模拟国际贸易

探秘世赛“货运代理”集训基地:全英文模拟国际贸易

...支由经济与商务外语学院院长张晓骏教授带领的13人专业团队,负责比赛中工作组织与管理、客户关系、商业运输、成本和价格、信息和通信技术、应急管理六个方面的教学,开展基地的培训和建设工作。张晓骏教授介绍,货运...

2017-12-15 #经典句子

可口可乐语音反转瓶成超话 科大讯飞iFLYOS对话年轻消费者

可口可乐语音反转瓶成超话 科大讯飞iFLYOS对话年轻消费者

...力体现。在前不久结束的Blizzard Challenge 2019国际语音合成大赛中,科大讯飞再夺世界冠军,14连冠的成绩有力印证了科大讯飞的技术实力。作为国内人工智能行业的先行者,科大讯飞在语音合成、语音识别、口语评测、语言翻译...

2023-11-01 #经典句子

打破定制化语音技术落地怪圈?从讲一口标准英音的语音助手说起

打破定制化语音技术落地怪圈?从讲一口标准英音的语音助手说起

...军事类比较严肃的新闻时,就需要严肃的声音风格。微软团队需要解决这两大难题。在BBC提供的不到2000句的录音人数据量中,他们基于主播的数据,与语言专家、客户挑选和分析特定口音的发音特点,然后汇总成模型能识别的...

2017-01-21 #经典句子

1句话克隆真人语音 AI问诊超96.4%全科医生!科大讯飞黑科技大秀

1句话克隆真人语音 AI问诊超96.4%全科医生!科大讯飞黑科技大秀

...台,至今已有441项核心技术;每个月平均新增9万开发者团队,其中工业应用占比达到60%;医疗AI系统一年给出97万份修正诊疗结果……而像“遇强则强,遇弱则弱”的围棋机器人、1分钟定制专属AI数字人、3秒判断声音画像等这些...

2022-12-03 #经典句子

没破绽!斯坦福新AI:输入文本改变视频人物对白 逼真到作者害怕

没破绽!斯坦福新AI:输入文本改变视频人物对白 逼真到作者害怕

...动合成某个人的语音,已经有许多算法可以做到。这里,团队使用了原本视频主角的录音,而在不需要原声的部分,用了Mac自带的语音合成工具。暂不赘述。这项研究最闪亮的部分,是流畅自然的“对口型”。左手拿着视频,右...

2009-11-09 #经典句子