[发明专利]一种服务设备及人机交互方法在审
申请号: | 202011603169.8 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112633211A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 李绪送;成刚;杨善松 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王英 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务 设备 人机交互 方法 | ||
本申请公开了一种服务设备及人机交互方法。用于解决采用多模态的信号来提高人机交互的适用性和稳定性的问题。本申请实施例中,采用人脸检测的方法从视频数据中提取多帧图像中的目标对象;并采用人脸特征点检测算法获取该目标对象的唇部图像;采用滑动窗口以及对齐处理等操作对唇部图像进行处理,得到待处理唇部图像序列;对待处理唇部图像序列进行初步粗分类,筛选掉虽有耦合性但不支持的唇语;对筛选过后唇部图像序列进行唇语识别,得到唇语识别结果;根据唇语识别的结果,执行相应的操作。
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种服务设备及人机交互方法。
背景技术
目前智能交互设备被看作万物联网的交互入口,因此语音交互获得了迅速发展,诸多语音交互系统出现在大众生活中。然而,单模态的语音交互系统抗干扰能力不强,在有背景噪音的场景下性能会明显下降,在距离较大的远场场景中会遇到唤醒困难的问题。此外,声音监听通道被占用时,单模态语音交互系统会彻底失效。
为了解决以上系统缺陷,相关技术中一方面可以依靠语音降噪和麦克风阵列等技术,来最大程度上消除背景噪音和远场环境对交互过程的影响,另一方面则可以借助多模态交互技术,赋予交互设备多模态的信号来扩充处理通路,借此解决单一模态语音交互在特定场景下遇到的问题,增强交互系统的适用性和稳定性。
然而,在相关技术中,如何采用多模态的信号来提高人机交互的适用性和稳定性的问题有待解决。
发明内容
本申请的目的是提供一种唇语识别设备及方法,用于解决以下问题:采用多模态的信号来提高人机交互的适用性和稳定性。
第一方面,本申请实施例提供一种人机交互方法,所述方法包括:
从视频数据的多帧图像中提取目标对象的唇部图像,并将提取的唇部图像按时序存储到唇部图像集合中;
根据预设的滑动窗口从所述唇部图像集合中截取多帧唇部图像,得到待处理唇部图像序列;
基于所述待处理唇部图像序列进行唇语识别,得到唇语识别结果;
若所述唇语识别结果中包括控制指令,则控制人机交互设备执行所述控制指令对应的操作。
在一个实施例中,从视频数据的多帧图像中提取目标对象的唇部图像,并将提取的唇部图像按时序存储到唇部图像集合中,包括:
对所述多帧图像中的每帧图像分别执行以下操作:
对所述图像进行人脸检测,获取所述图像的人脸关键点;
根据所述人脸关键点,从所述图像中截取所述目标对象的唇部图像;
按照所述图像在所述视频中的时序位置,将所述唇部图像存储到所述唇部图像集合中。
在一个实施例中,所述基于所述待处理唇部图像序列进行唇语识别,得到唇语识别结果之前,所述方法还包括:
对不同帧的唇部图像进行对齐处理。
在一个实施例中,所述对不同帧的唇部图像进行对齐处理,包括以下中的任一种或组合:
采用平移变换和/或旋转变换处理方式调整唇部边界、以使不同唇部图像的唇部边界平行于指定方向;
将不同唇部图像放缩到指定尺寸;
采用仿射变换方法处理不同帧的唇部图像,以使不同帧的唇部图像相对采集所述视频数据的镜头方位为预设方位。
在一个实施例中,所述滑动窗口的参数包括:步长和抽帧数量,所述抽帧数量用于确定所述多帧唇部图像的帧数;所述根据预设的滑动窗口从所述唇部图像集合中的唇部图像序列中截取多帧唇部图像,得到待处理唇部图像序列之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011603169.8/2.html,转载请声明来源钻瓜专利网。