[发明专利]一种服务设备及人机交互方法在审
申请号: | 202011603169.8 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112633211A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 李绪送;成刚;杨善松 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王英 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务 设备 人机交互 方法 | ||
1.一种人机交互方法,其特征在于,所述方法包括:
从视频数据的多帧图像中提取目标对象的唇部图像,并将提取的唇部图像按时序存储到唇部图像集合中;
根据预设的滑动窗口从所述唇部图像集合中截取多帧唇部图像,得到待处理唇部图像序列;
基于所述待处理唇部图像序列进行唇语识别,得到唇语识别结果;
若所述唇语识别结果中包括控制指令,则控制人机交互设备执行所述控制指令对应的操作。
2.根据权利要求1所述的方法,其特征在于,从视频数据的多帧图像中提取目标对象的唇部图像,并将提取的唇部图像按时序存储到唇部图像集合中,包括:
对所述多帧图像中的每帧图像分别执行以下操作:
对所述图像进行人脸检测,获取所述图像的人脸关键点;
根据所述人脸关键点,从所述图像中截取所述目标对象的唇部图像;
按照所述图像在所述视频中的时序位置,将所述唇部图像存储到所述唇部图像集合中。
3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理唇部图像序列进行唇语识别,得到唇语识别结果之前,所述方法还包括:
对不同帧的唇部图像进行对齐处理。
4.根据权利要求3所述的方法,其特征在于,所述对不同帧的唇部图像进行对齐处理,包括以下中的任一种或组合:
采用平移变换和/或旋转变换处理方式调整唇部边界、以使不同唇部图像的唇部边界平行于指定方向;
将不同唇部图像放缩到指定尺寸;
采用仿射变换方法处理不同帧的唇部图像,以使不同帧的唇部图像相对采集所述视频数据的镜头方位为预设方位。
5.根据权利要求1所述的方法,其特征在于,所述滑动窗口的参数包括:步长和抽帧数量,所述抽帧数量用于确定所述多帧唇部图像的帧数;所述根据预设的滑动窗口从所述唇部图像集合中的唇部图像序列中截取多帧唇部图像,得到待处理唇部图像序列之前,所述方法还包括:
调整所述滑动窗口的抽帧数量;并,
调整所述滑动窗口的步长以确定相邻两滑动窗口之间的帧间隔。
6.根据权利要求5所述的方法,其特征在于,所述调整所述滑动窗口的抽帧数量,包括:
根据所述目标对象的语速来确定所述抽帧数量;其中,所述抽帧数量与所述语速具有反比关系。
7.根据权利要求1所述的方法,其特征在于,所述基于所述待处理唇部图像序列进行唇语识别之前,所述方法还包括:
根据二分类模型,对所述唇部图像序列进行二分类处理,确定所述唇部图像序列是否为噪音序列;
若非噪音序列,则执行对所述唇部图像序列进行唇语识别的步骤;
若是噪音序列,则对所述唇部图像序列进行丢弃处理。
8.根据权利要求7所述的方法,其特征在于,所述根据预设的滑动窗口从所述唇部图像集合中的唇部图像序列中截取多帧唇部图像,得到待处理唇部图像序列之后,所述方法还包括:
从指定的采样起始点开始对所述待处理唇部图像序列进行等间隔采样,获取目标数量的待处理唇部图像序列。
9.一种服务设备,其特征在于,包括:存储器和控制器;
所述存储器,用于存储计算机程序;
所述控制器与所述存储器连接,被配置为基于所述计算机程序执行如权利要求1-8中任一所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,当所述指令在计算机上运行时,使所述计算机执行如权利要求1-8中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011603169.8/1.html,转载请声明来源钻瓜专利网。