[发明专利]一种服务设备及人机交互方法在审

申请号：	202011603169.8	申请日：	2020-12-30
公开（公告）号：	CN112633211A	公开（公告）日：	2021-04-09
发明（设计）人：	李绪送;成刚;杨善松	申请（专利权）人：	海信视像科技股份有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	王英
地址：	266555 山东省青***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种服务设备人机交互方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种服务设备及人机交互方法。用于解决采用多模态的信号来提高人机交互的适用性和稳定性的问题。本申请实施例中，采用人脸检测的方法从视频数据中提取多帧图像中的目标对象；并采用人脸特征点检测算法获取该目标对象的唇部图像；采用滑动窗口以及对齐处理等操作对唇部图像进行处理，得到待处理唇部图像序列；对待处理唇部图像序列进行初步粗分类，筛选掉虽有耦合性但不支持的唇语；对筛选过后唇部图像序列进行唇语识别，得到唇语识别结果；根据唇语识别的结果，执行相应的操作。

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种服务设备及人机交互方法。

背景技术

目前智能交互设备被看作万物联网的交互入口，因此语音交互获得了迅速发展，诸多语音交互系统出现在大众生活中。然而，单模态的语音交互系统抗干扰能力不强，在有背景噪音的场景下性能会明显下降，在距离较大的远场场景中会遇到唤醒困难的问题。此外，声音监听通道被占用时，单模态语音交互系统会彻底失效。

为了解决以上系统缺陷，相关技术中一方面可以依靠语音降噪和麦克风阵列等技术，来最大程度上消除背景噪音和远场环境对交互过程的影响，另一方面则可以借助多模态交互技术，赋予交互设备多模态的信号来扩充处理通路，借此解决单一模态语音交互在特定场景下遇到的问题，增强交互系统的适用性和稳定性。

然而，在相关技术中，如何采用多模态的信号来提高人机交互的适用性和稳定性的问题有待解决。

发明内容

本申请的目的是提供一种唇语识别设备及方法，用于解决以下问题：采用多模态的信号来提高人机交互的适用性和稳定性。

第一方面，本申请实施例提供一种人机交互方法，所述方法包括：

从视频数据的多帧图像中提取目标对象的唇部图像，并将提取的唇部图像按时序存储到唇部图像集合中；

根据预设的滑动窗口从所述唇部图像集合中截取多帧唇部图像，得到待处理唇部图像序列；

基于所述待处理唇部图像序列进行唇语识别，得到唇语识别结果；