揭秘！深度学习如何帮助Siri获得“人类的语气”

时间：2015-02-18

今天，我们就来了解一下如何使用它们来改善Siri的声音

友情提示：本文共有 1621 个字，阅读大概需要 4 分钟。

全文共1850字，预计学习时长6分钟

作为一名iOS用户，你一天会跟Siri说多少次话？很多次，是吗？

人工智能和深度学习正变得更加根深蒂固，并被越来越多地用于开发虚拟个人助理。

今天，我们就来了解一下如何使用它们来改善Siri的声音。

如果你是一个敏锐的观察者，就会发现从iOS 11系统开始Siri的声音听起来比以前更像人了。这是因为苹果正在深入挖掘人工智能、机器学习和深度学习技术，为用户提供最佳的个人助理体验。

自iPhone 4S引入Siri，一直延续到iOS11，这款个人助理已经进化得更接近人类，并与人类建立了良好的关系。Siri采用语音合成和深度学习相结合的方式来回复用户的语音指令。

语音合成: Siri功能不可或缺的一个组成部分

语音合成基本上是人类语音的人工合成。这项技术在包括虚拟个人助理、游戏和娱乐在内的多个领域都是完美的。在单元选择和参数综合的基本模型方面取得了一些进展后，深度学习已经愈发深入其中了。

该技术集成到语音合成中，产生了一种新的模型，称为直接波形建模。有了这个模型，现在就可以处理高质量的单元选择合成，并有助于利用参数合成增强灵活性。

苹果利用混合单元选择系统的深度学习能力，为Siri提供最高质量的语音输出。

文本语音转换系统（TTS）是如何工作的

TTS系统的工作原理是记录可能出现的情况下的人类的声音，划分语音单元，并使用机器学习。

记录可能出现的情况下的人类的声音

为虚拟个人助理打造文本语音转换系统的首要任务是记录人的声音。这个声音不仅要悦耳动听，而且要让每个人都听得很清楚。

为了涵盖各种各样的人类语音，需要在一个专业工作室里录制大约20个小时的语音。这几乎包含所有类型的回答，包括叙述指令、口述天气预报、讲笑话等等。使用音频剪辑是不可能的，因为用户对私人助理的提问类型是没有限制的。然后，处理这些记录下来的回答，让虚拟助理了解它们。

语音单元的分叉

人类录制的语音被分成几个部分，然后按照接收到的文本连接在一起，以创建一个完美的响应。优化特定设备的语音单元或使它们与一系列设备兼容，需要分析每个电话的声学特性和语音韵律。

机器学习的使用

虽然听起来就像另一个过程，但要让开发人员完全掌握某一包含重音和语调(韵律)的模块是相当困难和具有挑战性的。此外，对于移动电话而言，采用这种字符串的形式太繁杂了。

随着机器学习的引入，这些挑战在一定程度上得到了化解。通过收集用于训练的数据，文本语音转换系统可以理解这种模式，明白如何划分音频的不同元素，以提供类似于人类的自然输出。

苹果在改善Siri语音方面所作的努力

当苹果的工程师们决定大力改进Siri的语音功能时，他们与一名女配音演员合作，用美式英语录制了20个小时的语音。这些1-2百万个音频片段被用来训练深度学习系统。

接下来，工程师们通过让受试者从Siri以前的声音和新的声音中进行选择，以此测试输出结果。他们中的大多数更喜欢新的、自然的、类人的Siri语音。他们注意到，当Siri回答琐碎问题、确认“请求已完成”通知并提供其他导航指令时，声音明显从机器人变成了自然声音。

下图为AB主观听力测试结果:

此外，测试对象认为这一声音完全符合Siri的“个性”。iOS应用程序开发服务提供商正在研究这项技术，以了解他们如何利用同样的技术来开发更多创新的应用程序。

用户何时体验到Siri的新声音

iPhone 8是第一款搭载iOS 11和Siri新语音的苹果手机。同时发布的iPad还将配备新的个人语音助理。为了发现新的可能性，苹果从未停止过技术实验。随着Siri语音功能的改进，苹果公司目前正处于观察阶段，以了解终端用户的反应。

从实用性上讲，人工智能和深度学习正在巩固其在虚拟个人助理和其他应用中的基础。由于人们的积极反应，这些技术的未来似乎相当光明。

期待未来的一天，Siri能用带有人类情感的语调与声音和你对话。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

本文如果对你有帮助，请点赞收藏《揭秘！深度学习如何帮助Siri获得“人类的语气”》，同时在此感谢原作者。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。