[发明专利]一种音视协同的唇语识别方法及系统在审
申请号: | 202110800963.X | 申请日: | 2021-07-15 |
公开(公告)号: | CN113658582A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 杨双;罗明双;山世光;陈熙霖 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/25 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 协同 识别 方法 系统 | ||
本发明提出一种音视协同的唇语识别方法和系统,基于视觉‑视觉、音频‑音频、视觉‑音频等三个层面的度量学习,三个度量学习机制的同时进行不仅缩短了训练时间和阶段,还能更好地进行视觉和音频两种模态间的协同学习。通过音频信息的帮助,本发明的视觉模型可以提取更有区分度的特征,从而提升唇语识别模型的性能。
技术领域
本发明涉及语音识别领域和计算机视觉领域,尤其是视觉语音识别和唇语识别。
背景技术
唇语识别,又称视觉语音识别,是指靠观看说话者说话时的面部与唇部动作,来解读说话者所说的话语内容的技术。该技术可以作为基于音频的语音识别的补充,弥补基于音频的语音识别模型在高噪等环境下的不足,同时该技术也可以独立用于无声等环境,实现所说话语内容的高效传递,因此该技术在人机交互系统中存在有巨大的应用价值;同时,近年来,随着大规模唇语识别数据集的出现和深度学习技术在计算机视觉、自然语言处理等领域中的广泛应用,唇语识别逐渐得到了广泛的关注,并逐渐开始在实际场景中发挥作用。
实际场景中的唇语识别通常面临着大词典低资源的问题,其特点在于在通过视觉信息判断说话内容时,所涉及的目标语言内容覆盖较大的词典范围,所涉及的词汇内容范围较广。因而,实际场景中的唇语识别任务通常一方面面临着常规唇语识别任务本身所面临的视觉细粒度特征难以提取、时间维度建模困难、说话人的姿态、表情变化大、外界光照条件复杂多变等挑战,另一方面也面临着该任务所独有的大词典带来的不同词间易混淆、短词较多难以识别等情况。
目前,大多数唇语识别方法都是基于大规模有标签数据和深度神经网络框架的视觉单模态强监督识别方法,这些方法在一些公开的数据集上取得了较好的性能,但仍然有许多不足和局限性。一方面,大规模有标签数据的获取是当下需要耗费大量人力物力的难题,准确的唇语识别数据通常需要严格的前后时间戳,这通常需要标注大量唇语识别数据,而这一步是非常繁琐且困难的。另一方面,人在说话的时候,声音和唇动是同步产生的。因此,如何利用语音数据来提高唇语识别模型的性能是非常有价值的事情,但是,目前已有的方法很少利用语音数据去帮助基于视觉的唇语模型的学习。
在进行唇语识别领域的研究时发现唇语识别任务和其他视频分类一样,最主要的关键点是提取每个唇读视频最具有判别性特征。然而,唇语识别却面临不同于其他视频分类任务的挑战。
首先,唇语识别任务本身就是一件非常有挑战性的事情,我们知道唇部区域是非常有限的,而对应的说话内容多种多样,同时说话过程中所处的客观环境也是复杂多变的,包括外部光线、说话人的姿态等等,这些因素都使得唇语识别是一项非常有挑战性的任务。
其次,唇语识别数据的标注也是一件极为繁琐的工作,不但需要获得严格的起始和终止的时间戳,而且还要获得对应的文本标签。最重要的一点是,在大词典的场景下,一些不同词类(如“WHICH”和“WHILE”)的视觉图片样本之间有较为明显的相似性,这对模型的判别能力提出了更高的要求。
另外,由于说话速度、说话人外表(包括姿势、年龄、化妆和个人习惯等等)等因素也会导致相同的词类样本间有较大的差异性。这些问题都进一步增加了唇语识别的难度,因为有限的训练数据很难覆盖所有不同情况的样本。现有的唇语识别方法基本都是基于大规模唇语识别数据集,很少考虑如何在低资源情况下获得一个性能较好的模型来处理唇语识别任务。
同时,我们注意到,在我们说话的时候,不仅有唇部动作,还有与之同时产生的音频,而音频特征(如MFCC,Fbank等)在很多时候有更好的区分度,同时视觉数据和音频数据也不需要进行额外的对齐。
发明内容
本发明的目的是如何让唇语识别模型能够在数据量有限的情况下学到有区分度的表示特征,因此本发明提出了一种基于音视协同训练机制的唇语识别方法。
针对现有技术的不足,本发明提出一种音视协同的唇语识别方法,其中包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110800963.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种物联网终端智能运维管理平台
- 下一篇:多通道瞬时电压抑制装置