[发明专利]一种融合多种视觉信息的唇语识别方法有效

申请号：	202010918333.8	申请日：	2020-09-02
公开（公告）号：	CN112084927B	公开（公告）日：	2022-12-20
发明（设计）人：	闫野;杨恒;印二威;谢良;邓宝松;闫慧炯;范晓丽;罗治国	申请（专利权）人：	中国人民解放军军事科学院国防科技创新研究院;天津（滨海）人工智能军民融合创新中心
主分类号：	G06V40/20	分类号：	G06V40/20;G06V20/00;G06V10/30;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司：	北京丰浩知识产权代理事务所(普通合伙) 11781	代理人：	李学康
地址：	100071 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合多种视觉信息识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合多种视觉信息的唇语识别方法，其特征在于，包含如下步骤：

S1,利用头戴式摄像采集设备对唇语图像进行采集，根据采集对象头部大小和形状，调整头戴式摄像采集设备中深度相机镜头参数和拍摄位置；

S2,对采集到的视频数据根据采集对象、采集批次进行分类存放，检查被试者口型和给定指令是否相符，去掉因走神或设备故障导致的无效数据；

S3,把每个视频样本逐帧分解，检查每一帧的画质是否清晰，确定噪声位置及分析来源，根据高斯滤波原理和二维伽马函数公式对图像去噪处理，处理后的图像再做裁剪，只保存特定大小的唇部图像；

S4,搭建自监督光流生成网络，把采集的数据输入生成网络中，用于光流数据的生成；

S5,储存训练好的光流数据，包括水平和垂直两个方向像素位移数据；把真实图像、光流数据和深度图像分别存放，输入到搭建好的三流融合训练网络中进行识别任务训练，并输出最终的唇语识别结果；

步骤S1具体包括：

S11，确定识别数据集所需采集的图像样本大小，根据刷新频率、像素因素选择合适的摄像头；

S12，设计出用于固定摄像头的头戴式塑料圈，并根据该设计方案利用3D打印机将用于固定摄像头的头戴式塑料圈打印出来；

S13，将摄像头固定在打印好的塑料圈预留位置；

S14，根据指定任务需求，确定需要采集的指令和词句，指定任务需求包括养老助残、军事作战、教育教学，根据不同年龄、性别、职业、唇形条件选择一定数量的被试志愿者；

S15，利用采集程序对每个被试志愿者分别采集，对每个志愿者根据每类指令采集若干个样本。

2.一种如权利要求1所述的融合多种视觉信息的唇语识别方法，其特征在于，步骤S3具体包括：

S31，利用python程序把每个视频样本逐帧提取；

S32，对每帧图像的通道由RGB变换为HSV，提取亮度通道分量V；

S33，对亮度通道分量V进行多尺度高斯滤波变换；

S34，对变换后的亮度通道分量V使用二维伽马函数变换；

S35，把经过处理的亮度通道分量和另外两个通道分量合并，并且转换为RGB格式输出并保存；

S36，利用中心裁剪函数，对处理后的图像进行裁剪，获得其唇部区域图像并保存，裁剪后的图像作为生成网络和识别网络的输入样本。

3.一种如权利要求2所述的融合多种视觉信息的唇语识别方法，其特征在于，亮度通道分量V的提取是通过图像转换为HSV制式后，使用opencv-python库的split图像处理函数拆分图像通道，从而得到亮度通道分量V。

4.一种如权利要求2所述的融合多种视觉信息的唇语识别方法，其特征在于，所述的对亮度通道分量V进行多尺度高斯滤波变换，其中使用的高斯卷积函数形式为：

式中的c为尺度因子，λ为归一化常数，(x,y)为亮度通道分量V中元素的坐标值，高斯函数G(x,y)满足归一化条件，即∫∫G(x,y)dxdy＝1。

5.一种如权利要求2所述的融合多种视觉信息的唇语识别方法，其特征在于，所述的对变换后的亮度通道分量使用二维伽马函数变换，其中使用的二维伽马函数表达式如下：

其中O(x,y)是校正后的输出图像亮度值，γ是亮度增强指数，m是光照分量亮度均值，I(x,y)表示图像坐标值(x,y)点处，经过多尺度高斯卷积得到的光照分量的平均值。

6.一种如权利要求1所述的融合多种视觉信息的唇语识别方法，其特征在于，步骤S4具体包括：

S41，把一个视频样本的第t帧和第t+2帧输入光流生成网络，网络输出量即为匹配的光流场；

S42，所得到的光流场在水平和垂直两个方向上，分别对光流场中的位移数据做减半运算，减半操作后的光流场数据再和第t帧图像做线性相加，输出预测的第t帧图像；

S43，对预测的第t帧图像和真实第t帧图像做均方差值，得到的均方差值作为损失函数，后向传播到光流生成网络，对生成网络进行参数更新；

S44，将经过足够批次训练的生成网络，用于生成指定样本的光流数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院;天津（滨海）人工智能军民融合创新中心，未经中国人民解放军军事科学院国防科技创新研究院;天津（滨海）人工智能军民融合创新中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010918333.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种窗洞口保温防水构造和施工方法
下一篇：一种pvc扶手的生产装置及适于该装置的生产方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合多种视觉信息的唇语识别方法有效

专利文献下载