近年来,随着深度学习和大数据应用的发展,AI读唇的研究也取得了前所未有的进步。AI读唇可用于帮助深受听力障碍困扰的患者,改善嘈杂环境中的语音识别等,具有巨大的潜力。
最近,阿里巴巴、浙江大学和斯蒂文斯理工学院的研究人员联合开发了一个算法——LIBS(Lip by Speech),该算法的准确度达到了行业领先水平。训练辅助数据除了LRS2数据库以外(包含45,000条来自BBC的句子音频),还有最大的普通话唇语语料库CMLR(包含100000条以上的自然语言句子、20000条以上的词组和30000个以上的汉字),能够实现实时中英复述。
原本人类本身读唇都已经比较困难,而机器读唇就更困难了,因为它需要从视频中提取足够多的信息。目前,大多数机器学习系统只能对单词进行分类,而不能进行句子序列预测。
根据LIBS的团队介绍,这个算法在两个基准上管理着业界领先的准确性,分别比基准的字符准确率高7.66%和2.75%。它甚至可以帮助有听力障碍的人观看没有字幕的视频。
简单地理解,就是LIBS采用了一种新的过滤策略,从语音识别器中提取特征,然后采用基于交叉模式对齐的方法提取视频中的帧级知识,以实现准确的唇形识别。
LIBS研究团队还发现,该模型在使用短句进行预训练的效果并不理想,因为解码器很难从少于14个字母的句子中提取有效信息。LIBS团队还表示,他们希望在未来的工作中,可以将该框架应用到其他场景中,比如手语系统。
LIBS通过红色区域分析唇语