第一句子大全,网罗天下好句子,好文章尽在本站!

解读AI手语翻译机的技术硬核

时间:2023-05-21

雷锋网按:据2019年3月份世界卫生组织公布的最新数据,超过全世界人口的5%约4 66亿人患有残疾性听力障碍。据估计,到2050年这一数据将达到9亿。与此同时

友情提示:本文共有 2233 个字,阅读大概需要 5 分钟。

雷锋网按:据2019年3月份世界卫生组织公布的最新数据,超过全世界人口的5%(约4.66亿人)患有残疾性听力障碍。据估计,到2050年这一数据将达到9亿。与此同时,手语作为听障者使用较多的语言,能正确理解手语的健全人士却寥寥无几。

5月16日,腾讯优图实验室联合深圳市信息无障碍研究会发布“优图AI手语翻译机”。据官方资料显示,用户通过面对翻译机摄像头进行手语表达,翻译机屏幕界面便能快速把手语转换为文字。

据公开资料显示,腾讯优图实验室创立于2012年,是腾讯三大人工智能实验室之一。去年,腾讯优图实验室已升级为腾讯计算机视觉研发中心。此外,更与国际期刊《科学》达成战略合作,共享在计算机视觉领域的资源和信息。

手语识别技术,潜行多年

任何技术的发展都不是一蹴而就的,尤其是近些年来,优图AI手语翻译机也并不是第一款针对手语应用的的产品,在此之前,手语识别技术已经发展多年,包括国内IT企业级科研院校都曾针对这一技术进行研究,并有此类成果和产品推出:

2013年7月,微软团队和中国科学院计算技术研究所进行合作,通过Kinect For Windows创建手语识别软件,可根据手语动作的追踪识别转换成正常人能够读懂的内容;

2018年2月,中科大发布了一篇手语识别的论文被人工智能顶级学术会议AAAI 2018收录;该论文提出一种新型连续手语识别框架 LS-HAN,无需时间分割;

2018年3月,Magic Leap的头戴式设备识别手语和文本“感官眼镜”,据3月新专利申请,相关信息概述了使用头戴式设备检测和翻译手语的方法,并介绍了如何识别标牌和店面上的文字;

2018年7月,软件开发者 Abhishek Singh演示了一款能够理解手语手势的 MOD,通过摄像头的捕捉和深度学习,让亚马逊 Alexa 对手语手势作出反馈;

2018年12月,爱奇艺研发的AI手语主播在中国网络视听大会上首次亮相,可识别用户语音并转换为文字,还能对健听人自然语言进行理解,并智能翻译为手语表达。

手语识别技术的困境与突破

传统的手语识别方法通常会针对特定的数据集设计合理的特征,再利用这些特征进行动作和手势的分类。受限于人工的特征设计和数据量大小,这些方法在适应性、泛化性和鲁棒性上都非常有限。

近年来,得益于大数据和深度学习技术不断的进步,人工智能算法的发展也水涨船高,尤其在计算机视觉、音频处理和自然语言处理等方面,这助推了AI算法在许多应用和场景中实现落地,研究人员开始尝试应用深度学习和数据驱动的算法来解决手语识别中的难题。

然而,不同于大部分的计算机问题,手语特有的地域性、复杂性和多样性给AI算法带来了难度。不仅增加了数据采集和清洗的成本,也使得这门技术的落地存在很大的挑战,难以被实际应用。

目前,针对解决听障人群沟通问题的研究,其研究方向多集中在将文字转化成手语;反过来,将听障人群的手语转化成文字就比较难了。

据公开资料显示,雷锋网了解到腾讯优图实验室手语识别数据集覆盖了近千句日常表达,900个常用词汇。此外,优图AI手语翻译机能够实现整句的识别和翻译,用户表达的时候可以将整个句子连贯表达完毕,不需要设定特定的结束或起始动作,也无需在句中故意停顿或放慢速度。

优图AI手语识别技术的实现方法

据官方资料显示,优图AI手语翻译机核心技术是与听障者手语表达高度符合的数据集与手语识别算法。

针对AI手语翻译机的手语识别数据集、特征提取器等关键技术能力,雷锋网(公众号:雷锋网)根据官方资料整理如下:

手语识别数据集

目前,AI手语翻译机的数据集覆盖近千句日常表达,900个常用词汇。此外,采集数据集还考虑了手语表达的地域性和多样性,包含了不同的表达习惯和速度。

特征提取器

结合普通2D卷积网络和3D卷积网络的优势,通过2D卷积网络来提取手语中的手势和身体姿势等静态信息,同时通过3D卷积网络来提取手语中普遍存在的细微而快速的变换动作的动态信息,最后将这两个信息相结合,产生最后的特征表达。

通过结合应用视频中的动态、静态信息,从而实现利用单纯的RGB视频图像进行手语识别。

句子表达中挖掘词级信息

该算法在视频帧与最后的输出之间加入了词级信息提取单元,词级信息提取单元利用长短时网络充分考虑特征提取器所提取出的信息,并结合视频中相邻的信息计算出词级的特征表达。这个单元使得算法能够更好地在句子中找到词语表达的边界,并提升对各种地域性表达的总结能力。

单句切分并充分考虑句中上下文信息

算法在提取词级信息的基础上还会充分将整句中的上下文信息进行综合考虑,然后再输出最后的识别结果。同时,为了减少用户在使用过程中的限制,技术团队在手语识别之前加入人脸检测和动作检测两个模块,用人脸检测确定手语表达者的位置,然后用动作检测判断用户是否在进行手语表达。

优图AI手语翻译机的“剑走偏锋”

目前来看,虽然AI手语识别技术受限于计算机性能、语料库丰富程度等因素的影响,但是随着人工智能和图像识别技术不断受到关注,目前包括旷世、商汤等国内独角兽企业,以及国内的BAT、国外的谷歌、微软、亚马逊,无不针对这一技术砸重金立项研究。

在智能语音技术带来了智能音箱后,AI视觉技术是否能带来类似的爆款硬件产品,此前大家更多关注的是受众人群更大的智能摄像机,腾讯优图此次发布的“优图AI手语翻译机”虽然难免有些“剑走偏锋”,却也不失为是一种更为场景化的应用和尝试。至于是否能为特殊人群带来真实便利,还有待真实应用场景中的用户反馈数据来呈现。

本文如果对你有帮助,请点赞收藏《解读AI手语翻译机的技术硬核》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
手语对聋生学习汉语的影响

手语对聋生学习汉语的影响

根据语言迁移现象,聋人手语对汉语的学习有两种影响:正迁移和负迁移。正迁移即在学习汉语语言的过程中,聋人手语对它的积极影响;负迁移即在语言的学习过程中,手语对汉语言学习的消极影响。一、手语对聋生学习汉语的...

2023-11-28 #经典句子

腾讯优图实验室AI手语识别研究白皮书

腾讯优图实验室AI手语识别研究白皮书

近日,腾讯优图实验室在攻坚AI手语识别上取得了突破性进展,推出“优图AI手语翻译机”,旨在通过AI技术缓解听障人群的沟通障碍问题,同时发布《腾讯优图实验室AI手语识别研究白皮书》,对当下听障人群痛点、技术研究现...

2023-06-09 #经典句子

湖北省聋协第12 13期全国通用手语采集研讨会在汉举行

湖北省聋协第12 13期全国通用手语采集研讨会在汉举行

11月7日至8日,湖北省聋协第12、13期全国通用手语采集研讨会在武汉召开,来自武汉、荆州、十堰、咸宁、黄冈、仙桃等地聋协骨干、手语族代表共20人参加了研讨会。△ 图为手语信息采集代表合影△ 图为聋协骨干审核手语采集...

2023-05-21 #经典句子

不会说话 却能在铜器上雕出片片莲花!杭州聋人铜雕设计师找到手语翻译小姐姐啦

不会说话 却能在铜器上雕出片片莲花!杭州聋人铜雕设计师找到手语翻译小姐姐啦

...如何将客户的要求与自己的专业相匹配,宋红刚急需一名手语翻译帮助他和外界沟通。小时新闻推送了宋红刚的故事(此前报道点这里)后,2月24日,宋红刚铜雕工作室传来了一个好消息:他们找到了一名手语翻译小姐姐,能帮...

2023-05-21 #经典句子

“手语老师”上新啦 手语情景剧为听障人士普法分享生活妙招

“手语老师”上新啦 手语情景剧为听障人士普法分享生活妙招

...持人 戴曼丽电视新闻类节目中,我们常常能看到敬业的手语老师“播新闻”。这回手语老师们表演起情景剧。9月16日,南京特殊教育师范学院、江苏省残联、江苏省广播电视总台联合出品《国家通用手语全媒体节目》,该节目...

2023-05-21 #经典句子

宣传推广手语 关爱残障人群 何逸:让听障人士少些孤单

宣传推广手语 关爱残障人群 何逸:让听障人士少些孤单

...幼儿园老师,可许多人认识她却是因为她创办的“听”心手语公益培训班。何逸是国家四级手语翻译员。十三年来,她坚持宣传推广手语、关爱残障人群,为太仓市助残扶残氛围的营造作出贡献。何逸认为,一个简单的手语动作...

2023-06-30 #经典句子

用手指传递爱!志愿者学手语

用手指传递爱!志愿者学手语

这个动作表示“你遇到困难了吗?”“需要帮助吗”用手语这样来表达……16日,鞍山市残联协会办与鞍山市振峰公益团队联合举办了“大爱无声,沟通无限”志愿者手语培训活动。来自振峰公益团队的120余名志愿者参加了手语...

2022-11-30 #经典句子

志愿者学手语 用手指传递爱

志愿者学手语 用手指传递爱

这个动作表示“你遇到困难了吗?”“需要帮助吗”用手语这样来表达……16日,鞍山市残联协会办与鞍山市振峰公益团队联合举办了“大爱无声,沟通无限”志愿者手语培训活动。来自振峰公益团队的120余名志愿者参加了手语...

2023-01-23 #经典句子