[发明专利]一种基于卷积神经网络的手语识别方法在审
申请号: | 201910340257.4 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110096991A | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 肖秦琨;秦敏莹 | 申请(专利权)人: | 西安工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06F16/50;G06N3/04 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 燕肇琪 |
地址: | 710032 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 手语识别 手型 测试样本 深度图像 手语图像 训练样本 数据库 图像 预处理步骤 分类识别 数据量 无噪声 手语 构建 采集 输出 分割 | ||
本发明公开一种基于卷积神经网络的手语识别方法,具体的步骤为:步骤1,采集若干含有手语的深度图像;步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样本;构建一个卷积神经网络模型;步骤3,利用所述训练样本对卷积神经网络模型对进行训练;步骤4,用已经训练好的卷积神经网络模型对测试样本进行识别,并输出分类识别的结果。本发明的能够提供一种基于卷积神经网络的手语识别方法,避免了传统手语识别方法对于数据量较大的任务效率较低的问题。
技术领域
本发明属于手语识别技术领域,涉及一种基于卷积神经网络的手语识别 方法。
背景技术
手语是听障人群与正常人群互相交流的唯一途径。正是有手语识别系统 的存在,聋哑人群的生活和工作空间才没有因此被限制。另一方面,随着人 工智能技术的发展,手语作为新型的、更加便捷的人机交互方式也已经成为 当今各行业交互方式的新趋势。
传统的手语识别方法主要涉及特征提取以及学习识别两个步骤。人工设 计特征主要包括有梯度方向直方图(HOG)和光流方向直方图(HOF),用于时序 建模的传统模型和方法主要有隐马尔科夫模型(HMM)动态时间规整(DTW)和 条件随机场(CRF)等。迄今为止,对这两个问题进行了大量的研究工作。但由 于人工设计的特征较为单一,且建模过程较为繁琐,在处理数据量较大的任 务时效率较低。
发明内容
本发明的目的是提供一种基于卷积神经网络的手语识别方法,避免了传 统手语识别方法对于数据量较大的任务效率较低的问题。
本发明所采用的技术方案是,
一种基于卷积神经网络的手语识别方法,具体的步骤如下:
步骤1,采集若干含有手语的深度图像;
步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割 出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据 库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样 本;
构建一个卷积神经网络模型;
步骤3:用训练样本对卷积神经网络模型进行训练。
步骤4:用已经训练好的卷积神经网络模型对测试样本进行识别,并输 出分类识别的结果。
本发明的特点还在于,
其中步骤一中采用Kinect深度摄像头采集图像,采集数据时,Kinect 深度摄像头距离打手语者约0.8~1.2米,距离地面约1.0~1.4米,帧率为 30FPS;
其中步骤二中图像预处理步骤具体如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域的像素个数,设置阈值,当像素个数小 于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1;最终 得到完整的手型部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910340257.4/2.html,转载请声明来源钻瓜专利网。