友情提示:本文共有 648 个字,阅读大概需要 2 分钟。
加州大学伯克利分校的研究人员说,他们第一个使用无声的单词和收集肌肉活动的传感器来训练AI。将电极放在脸部和喉咙上,使用肌电图(EMG)可以检测到无声的语音。该模型专注于研究人员所说的数字语音,以预测单词并生成合成语音。
研究人员认为,他们的方法可以为无法发出可听语音的人们提供多种应用程序,并且让人工智能设备感应到语音并作出反应。
研究小组在论文中写道:“对无声语音进行数字语音处理具有广泛的潜在应用。” “例如,它可以用于创建类似于蓝牙耳机的设备,该设备可以使人们进行电话交谈而不会打扰周围的人。在环境声音太大而无法捕获语音的环境中或保持沉默很重要的环境中,这种设备也可能很有用。”
可以从静音语音中捕获单词的AI的另一个示例-朗读AI-可以为监视工具提供支持或为聋哑人提供支持的用例。
对于他们的无声语音预测,加州大学伯克利分校的研究人员使用了一种方法“将音频输出目标从发声录音转换为相同发音的无声录音”。然后,使用WaveNet解码器生成音频语音预测。
与通过语音EMG数据训练的基线相比,该方法可将书中句子的转录中的单词错误率降低64%至4%,并将基线降低95%。为了推动这一领域的更多工作,研究人员开源了将近20个小时的面部EMG数据集。
David Gaddy和Dan Klein题为“无声语音的数字发声”的模型论文在上周在线举行的“自然语言处理的经验方法”(EMNLP)活动中获得了最佳论文奖。 Hugging Face公司在开源Transformers库上的工作获得了组织者的最佳演示论文奖。
本文如果对你有帮助,请点赞收藏《人工智能探测无声言语并合成语音》,同时在此感谢原作者。