[发明专利]一种基于卷积神经网络的手语识别方法在审
申请号: | 201910340257.4 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110096991A | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 肖秦琨;秦敏莹 | 申请(专利权)人: | 西安工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06F16/50;G06N3/04 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 燕肇琪 |
地址: | 710032 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 手语识别 手型 测试样本 深度图像 手语图像 训练样本 数据库 图像 预处理步骤 分类识别 数据量 无噪声 手语 构建 采集 输出 分割 | ||
1.一种基于卷积神经网络的手语识别方法,其特征在于,具体的步骤如下:
步骤1,采集若干含有手语的深度图像;
步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样本;
构建一个卷积神经网络模型;
步骤3,利用所述训练样本对卷积神经网络模型对进行训练;
步骤4,用已经训练好的卷积神经网络模型对测试样本进行识别,并输出分类识别的结果。
2.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,所述步骤一中采用Kinect深度摄像头进行图像采集。
3.如权利要求2所述的一种基于卷积神经网络的手语识别方法,其特征在于,采集数据时,所述Kinect深度摄像头距离打手语者约0.8~1.2米,距离地面约1.0~1.4米,帧率为30FPS。
4.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2中所述预处理步骤具体如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域最终得到完整的手型图像。
5.如权利要求4所述的一种基于卷积神经网络的手语识别方法,其特征在于,所述步骤2.4的具体方法为:标记图像的连通区域并计算连通区域的像素个数,设置阈值,当连通域的像素个数小于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1。
6.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2所述的卷积神经网络模型为16层卷积神经网络模型,按照信息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层;其中每一层的输出即为下一层的输入。
7.如权利要求6所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2所述的卷积神经网络模型中的参数设置为:
卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为8;
池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为16;
池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为32;
Softmax层中,MaxIter设置为280,epoch设置为4。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910340257.4/1.html,转载请声明来源钻瓜专利网。