[发明专利]一种面向三维点云视频的多时域分辨率唇语行为检测方法有效
申请号: | 202010380003.8 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111553300B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 张洁 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V40/16;G06T7/246;G06T7/66;G06V20/40 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 三维 视频 多时 分辨率 行为 检测 方法 | ||
本发明公开了一种面向三维点云视频的多时域分辨率唇语行为检测方法,采用三维视频传感器面对说话者的面部采集三维点云视频,经过预处理后,从三维视频的各帧中定位并跟踪三维动态唇部关键点;然后定义三维唇部关键点的帧间运动散度,从而提取三维点云序列的帧间唇部动态性信息;最后在由粗到精的多个时域分辨率下自动判断唇语行为的发生时刻和结束时刻,从三维点云视频中将说话者的唇部行为在三维空间域和一维时间域上同时分割出来。本发明相比面向二维图像数据的唇语行为检测技术,不受光照不均、阴影遮挡、说话者头部姿态变化和尺度变化等因素的影响;由于采用三维唇部关键点,不受口腔内部杂乱背景的干扰;具有较好的环境适应性和检测效率。
技术领域
本发明涉及一种三维唇语行为的自动检测方法,属于计算机视觉领域,特别涉及生物行为模态领域。
背景技术
说话是一种自然的人类行为活动,它的发生过程会产生多种生物行为模态:语音、唇语、人脸运动等。说话行为相关的生物模态涉及了多个应用领域,例如自然语言处理、读唇术、个体身份识别等。唇部是说话行为发生时一个重要的面部运动单元,唇部的非刚性变形具有个体独特性、连续性和可重复性等属性,在上述应用领域具有重要的研究价值。唇部行为属于视觉模态,它作为语音模态的一个重要对应,两者可相互替代或补充。唇语行为的视觉模态分析是面向唇部运动的个体身份识别、唇语内容识别等技术的重要前提。
唇语行为检测的目的是在空间域定位并跟踪唇部区域,在时间域上确定唇部行为发生的开始和结束时刻。唇语行为检测的核心是说话中的唇部的帧间动态性表达。因此,它的挑战性在于如何做到精细的时刻级的行为决策。
现有的唇语行为活动分析方法大多采用二维图像序列为原始数据,可大致分为稠密运动场法和运动特征法。稠密运动场法计算动态唇部在两个时刻的帧间像素级运动场,表征唇部的时刻级运动。但是该类方法有两方面的缺点:a)口腔内部的场景较为杂乱,该区域的像素级运动场不够稳定,容易影响唇部行为分析;b)当说话者的头部整体姿态在说话过程中发生变化时,帧间唇部运动场会混合头部姿态刚性变化和唇部非刚性变形两种动态性,这对单独分析唇语行为具有影响,而二维图像中的头部姿态变化并不易于被补偿和校正。
基于唇部动态特征的唇语行为分析方法较多,这些特征描述了唇部的形状和运动。例如:基于唇部关键点和区域运动轨迹的动态特征可以表达动态唇部的形状和运动,结合模式分类模型可实现对唇语行为的单时刻状态的自动分类;端到端的深度神经网络特征表达可提取局部或全局的动态唇部特征并实现行为检测。现有的语音和视频双模态方法也可实现唇语行为检测,其中语音数据和唇语视觉数据相互补充。总体说来,二维唇语行为检测普遍受到二维图像信息的敏感因素干扰,包括图像光照分布不均、阴影遮挡、唇部姿态变化和尺度变化等。基于三维视频数据的唇语行为检测是一项很有前景的技术,它仍是一个较少被探索的分支,三维唇语行为检测的难点在于:如何抵抗三维数据噪声、口腔背景的干扰、如何表达唇部在四维时空域的时刻级非刚性变形。
发明内容
本发明技术针对现有二维唇语行为检测受上述影响因素干扰的问题,在三维点云视频数据中进行唇语行为的发生和结束时刻的自动检测。通过建立一个三维唇部的运动参考球,统计三维动态唇部关键点基于运动参考球的帧间运动散度,表达说话行为下的三维唇部帧间动态性特征;结合多时域检测分辨率的检测框架,实现面向三维点云视频的多时域分辨率唇语行为检测。本发明提供了一种在时间域和空间域上同时探测三维唇语行为活动的自动化技术,具有环境适应性好、对唇部运动速度的鲁棒性好、检测正确率高、时刻误差小的特点。
为实现上述目的,本发明的技术方案如下:一种面向三维点云视频的多时域分辨率唇语行为检测方法,包括以下步骤:
步骤a、采用三维视频传感器面对说话者面部,采集其说话过程中的三维点云视频;
步骤b、对三维点云视频数据进行两步预处理,即三维视频去噪和全局姿态配准,降低三维点云噪声和时域震荡,减小说话者头部姿态变化对分析唇部行为的影响;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010380003.8/2.html,转载请声明来源钻瓜专利网。