[发明专利]一种基于事件相机的多粒度时空特征感知的唇读方法在审

申请号：	202210484754.3	申请日：	2022-05-06
公开（公告）号：	CN114882590A	公开（公告）日：	2022-08-09
发明（设计）人：	查正军;曹洋;王洋;吴枫;谭赣超	申请（专利权）人：	中国科学技术大学
主分类号：	G06V40/20	分类号：	G06V40/20;G06V10/82;G06N3/04;G06N3/08
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于事件相机粒度时空特征感知方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于事件相机的多粒度时空特征感知的唇读方法,包括：1、首次提出了基于事件相机的唇读技术方案；2、根据事件流信号的特性，将原始异步信号流数据转换成了多时间分辨率事件帧；3.构建了一个双流网络来提取不同粒度的时空特征，其中高时间分辨率分支提取精细的时间特征，低时间分辨率提取完整的空间特征；4.构建序列模型进行特征序列解码，将特征提取网络提取到的多粒度时空特征解码为事件流信号对应的单词的概率。本发明所提出的基于事件相机的唇读方案能够解决传统相机进行唇读时存在的视频时间分辨率低、视觉冗余信息多、极端光照条件下性能差以及实际部署时设备功耗大的问题。

技术领域

本发明属于唇读领域，具体的说是一种基于事件相机的多粒度时空特征感知的唇读方法。

背景技术

唇读技术旨在从说话者唇部运动的视觉信息中解码出其所说的文本内容。在健康医疗、嘈杂环境下辅助语音识别、公共安防、人机交互等领域有着重要的应用，唇读技术在近40年来引起来学术界与工业界的极大关注。唇读任务是一个非常具有挑战性的任务，具体体现在以下五方面：1.基于传统RGB拍摄的视频时间分辨率低且包含大量背景等视觉冗余信息；2.不同讲话者发音习惯和面部表情等差异大；3.发音相似单词在视觉上具有歧义性；4.视频光照条件相差大，尤其在极端光照条件下更难以进行唇语识别，5.在实际应用中，传统RGB相机的功耗较大，部署需要长期开启的设备运行成本高。

事件相机是一种新型的生物启发式的神经形态相机，与传统相机以固定频率捕捉场景亮度不同，事件相机逐像素的异步的捕捉场景中的亮度变化。相对于传统相机，事件相机具有高时间分辨率(微妙级)、高动态范围(140dB)、低功耗和高像素带宽(kHz级别)等优点。因此，事件相机在机器人和计算机视觉领域具有解决一些富有挑战性的场景的潜力，比如低延迟、高速运动和高动态范围场景。

基于事件相机的唇读技术的关键是要从异步的事件流信号中提取出精确的时空特征。现有的事件流时空特征提取方法主要是应用在步态识别、手势识别等不需要十分精细的时空特征感知的任务中。其中，基于点云和图网络的方法将事件流当做点云或者图的节点来处理，由于事件流向点云和图的转换过程中存在下采样过程，所以这些方法会丢失事件流中所包含的细粒度的时空信息。基于脉冲神经网络的方法使用脉冲神经网络逐个的处理事件流中的事件，虽然不会导致信号的丢失，但是由于目前脉冲神经网络缺乏有效的训练手段，导致这一类方法的准确率相对不高。基于卷积神经网络的方法先将异步事件流信号转换成固定帧率的事件帧，然后使用标准卷积神经网络进行时空特征提取，然而由于转换成固定帧率的事件帧之后会丢失事件信号的高时间分辨率特性，导致所提取到的时空特征不够精细。以上的方法对于唇读这种需要感知非常精细的时空特征的任务来说都是不尽如人意的。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于事件相机的多粒度时空特征感知的唇读方法，以期能能够更精确的通过事件流信号进行唇语识别，从而能解决基于传统RGB相机进行唇读时存在的视频时间分辨率低、视觉冗余信息多、极端光照条件下性能差以及实际部署时设备功耗大的问题。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于事件相机的多粒度时空特征感知的唇读方法的特点在于，包括如下步骤：

步骤一、基于事件相机的唇读数据收集和预处理：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210484754.3/2.html，转载请声明来源钻瓜专利网。