第一句子大全,网罗天下好句子,好文章尽在本站!

揭秘!深度学习如何帮助Siri获得“人类的语气”

时间:2015-02-18

今天,我们就来了解一下如何使用它们来改善Siri的声音

友情提示:本文共有 1621 个字,阅读大概需要 4 分钟。

全文共1850字,预计学习时长6分钟

作为一名iOS用户,你一天会跟Siri说多少次话?很多次,是吗?

人工智能和深度学习正变得更加根深蒂固,并被越来越多地用于开发虚拟个人助理。

今天,我们就来了解一下如何使用它们来改善Siri的声音。

如果你是一个敏锐的观察者,就会发现从iOS 11系统开始Siri的声音听起来比以前更像人了。这是因为苹果正在深入挖掘人工智能、机器学习和深度学习技术,为用户提供最佳的个人助理体验。

自iPhone 4S引入Siri,一直延续到iOS11,这款个人助理已经进化得更接近人类,并与人类建立了良好的关系。Siri采用语音合成和深度学习相结合的方式来回复用户的语音指令。

语音合成: Siri功能不可或缺的一个组成部分

语音合成基本上是人类语音的人工合成。这项技术在包括虚拟个人助理、游戏和娱乐在内的多个领域都是完美的。在单元选择和参数综合的基本模型方面取得了一些进展后,深度学习已经愈发深入其中了。

该技术集成到语音合成中,产生了一种新的模型,称为直接波形建模。有了这个模型,现在就可以处理高质量的单元选择合成,并有助于利用参数合成增强灵活性。

苹果利用混合单元选择系统的深度学习能力,为Siri提供最高质量的语音输出。

文本语音转换系统(TTS)是如何工作的

TTS系统的工作原理是记录可能出现的情况下的人类的声音,划分语音单元,并使用机器学习。

记录可能出现的情况下的人类的声音

为虚拟个人助理打造文本语音转换系统的首要任务是记录人的声音。这个声音不仅要悦耳动听,而且要让每个人都听得很清楚。

为了涵盖各种各样的人类语音,需要在一个专业工作室里录制大约20个小时的语音。这几乎包含所有类型的回答,包括叙述指令、口述天气预报、讲笑话等等。使用音频剪辑是不可能的,因为用户对私人助理的提问类型是没有限制的。然后,处理这些记录下来的回答,让虚拟助理了解它们。

语音单元的分叉

人类录制的语音被分成几个部分,然后按照接收到的文本连接在一起,以创建一个完美的响应。优化特定设备的语音单元或使它们与一系列设备兼容,需要分析每个电话的声学特性和语音韵律。

机器学习的使用

虽然听起来就像另一个过程,但要让开发人员完全掌握某一包含重音和语调(韵律)的模块是相当困难和具有挑战性的。此外,对于移动电话而言,采用这种字符串的形式太繁杂了。

随着机器学习的引入,这些挑战在一定程度上得到了化解。通过收集用于训练的数据,文本语音转换系统可以理解这种模式,明白如何划分音频的不同元素,以提供类似于人类的自然输出。

苹果在改善Siri语音方面所作的努力

当苹果的工程师们决定大力改进Siri的语音功能时,他们与一名女配音演员合作,用美式英语录制了20个小时的语音。这些1-2百万个音频片段被用来训练深度学习系统。

接下来,工程师们通过让受试者从Siri以前的声音和新的声音中进行选择,以此测试输出结果。他们中的大多数更喜欢新的、自然的、类人的Siri语音。他们注意到,当Siri回答琐碎问题、确认“请求已完成”通知并提供其他导航指令时,声音明显从机器人变成了自然声音。

下图为AB主观听力测试结果:

此外,测试对象认为这一声音完全符合Siri的“个性”。iOS应用程序开发服务提供商正在研究这项技术,以了解他们如何利用同样的技术来开发更多创新的应用程序。

用户何时体验到Siri的新声音

iPhone 8是第一款搭载iOS 11和Siri新语音的苹果手机。同时发布的iPad还将配备新的个人语音助理。为了发现新的可能性,苹果从未停止过技术实验。随着Siri语音功能的改进,苹果公司目前正处于观察阶段,以了解终端用户的反应。

从实用性上讲,人工智能和深度学习正在巩固其在虚拟个人助理和其他应用中的基础。由于人们的积极反应,这些技术的未来似乎相当光明。

期待未来的一天,Siri能用带有人类情感的语调与声音和你对话。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

本文如果对你有帮助,请点赞收藏《揭秘!深度学习如何帮助Siri获得“人类的语气”》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
揭秘:对Siri说的每句话都会被苹果公司保存?你不知道的iPhone冷知识

揭秘:对Siri说的每句话都会被苹果公司保存?你不知道的iPhone冷知识

在日常使用中,我们对Siri产生了相当大的依赖,但很少有人知道,苹果公司实际上会保存用户与Siri的对话记录。这意味着你在和Siri交流时,说的每一句话都有可能被记录下来并保存在苹果的数据库中。这一点可能令人感到惊讶...

2024-01-28 #大杂绘

(独家揭秘)GRE阅读常用固定句式 看似简单 其实暗藏玄机!

(独家揭秘)GRE阅读常用固定句式 看似简单 其实暗藏玄机!

...述的事物The role those anthropologists ascribe是个大考点, 这些人类学家认为,生物进化的作用,不是规定人类行为的种种细节,而是将各种限制强加于人类——即在任何文化的典型情况中都会“自然流露”的情感、思维、以及行动方...

2020-02-08 #经典句子

Talk to AI 揭秘背后的语音识别数据

Talk to AI 揭秘背后的语音识别数据

...是人与人沟通最重要的方式,语音识别能力是让机器理解人类世界的基础能力。通过深度学习算法建立语音识别模型,需要大量高质量的结构化语音数据对模型进行训练。语音分割和语音转写即对非结构化语音数据进行的结构化...

2023-07-09 #经典句子

揭秘:搜狗语音实时翻译是怎么炼成的

揭秘:搜狗语音实时翻译是怎么炼成的

...又具备了新的能力以及新进展。今年下半年,基于已有的深度学习平台和技术,搭建了我们自己语音翻译技术,这是无到有的技术。在谷歌神经网络翻译技术刷屏之前,我们就已经把这个技术用运用在我们的后台了,从口语来看...

2023-12-14 #经典句子

Yeelight星辰智能落地灯发布:一句话Siri和小爱同学帮你开灯

Yeelight星辰智能落地灯发布:一句话Siri和小爱同学帮你开灯

10月3日消息,小米生态链企业青岛亿联客日前发布了Yeelight星辰智能落地灯,全新触控交互,支持米家和HomeKit,售价699元。Yeelight星辰智能落地灯采用双光源设计,背面精心设计120°弧形洗墙。光线经过两次散射,均匀形成120%弧...

2023-10-28 #经典句子

Siri最新实用功能:一句话查看百度肺炎疫情实时大数据报告

Siri最新实用功能:一句话查看百度肺炎疫情实时大数据报告

疫情情况每日变化,掌握疫情实时信息已成为人们的刚需。近日,苹果联合百度App在Siri中增加了新功能,语音输入“肺炎疫情”、“疫情”的指令,即可通过“百度疫情实时大数据报告”,了解疫情相关的最新消息。疫情是当...

2015-12-06 #经典句子

2019 自然语言处理前沿论坛 百度NLP技术全揭秘

2019 自然语言处理前沿论坛 百度NLP技术全揭秘

...语义匹配计算、语义解析、多模态语义计算。计算机理解人类语言是一件非常有挑战性的事情。语义表示技术存在的问题是,自然语言存在基本单元一词多义、多词同义、句子表述无限等特性。而我们的目标是将语言符号“表示...

2023-08-11 #经典句子

Siri:你的方便正在出卖你的个人隐私 任何一句话都可能有人在听

Siri:你的方便正在出卖你的个人隐私 任何一句话都可能有人在听

随着现在手机功能的增多,想要快速便捷地找到某一个功能也变得不容易,为了使用户更方便,于是有了“语音助手”这么一个功能。只要唤醒语音助手,说出你想要的操作,手机就会自动帮你执行,比如看新闻、查天气、设闹...

2023-01-25 #经典句子