[发明专利]基于卷积神经网络的手语字母拼写识别方法在审
申请号: | 202211007786.0 | 申请日: | 2022-08-22 |
公开(公告)号: | CN115359562A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 孙力娟;高奇志;郭剑;韩崇;王娟;王长龙;朱东晟 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/25;G06V10/26;G06V10/32;G06V10/40;G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 杭行 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 手语 字母 拼写 识别 方法 | ||
1.基于卷积神经网络的手语字母拼写识别方法,其特征在于:所述方法包括如下步骤:
步骤1,手部目标检测,通过深度相机获取手语彩色图片和深度图片,通过目标检测网络将手部图像中切割出来,同时根据手部切割图像尺寸信息及深度相机内参对深度图像进行切割;
步骤2,对获取的局部深度图像进行归一化,将深度信息转换为灰度信息,并且对图像进行基于灰度信息的伪色彩线性变换,实现深度图像可视化;
步骤3,获取可视化后的深度图并根据色域对手势进行分割,同时按照手势融合规则对分割手势结果进行判别并进行色彩融合;
步骤4,对生成的手语分割手势灰度化二值化处理,并且对处理结果进行像素反转集中图像像素信息,处理完毕将图像送入卷积神经网络进行训练;
步骤5,训练时将分割深度图尺寸归一化并送入卷积神经网络进行特征提取,将输出特征与全连接层相连接,最后通过softmax输出24分类概率;在网络训练设定轮数后保存训练模型并加载用来测试,对于采集的数据集划分训练集和测试集,进行五次交叉训练,验证模型泛化性并保存最佳训练模型。
2.根据权利要求1所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤1中,根据手语彩色图像生成图像金字塔,使其满足不同尺寸物体的需求,从图像金字塔中通过选择性搜索算法获得若干个可能存在目标的感兴趣区域;将感兴趣区域缩放成227*227的大小并输入到卷积神经网络提取特征,将卷积神经网络全连接层的输出作为SMV分类器的输入对输入图像进行分类,对于SVM分好类的感兴趣区域做边框回归,用回归框的回归值校正原来的建议窗口,生成预测窗口坐标及预测概率,选择预测概率最大的结果进行输出并保存。
3.根据权利要求1所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤2中,深度相机获取的原始手语手势深度信息为16位,像素范围为0到65535;首先需对16位深度信息进行归一化处理为8位深度,假设原深度信息矩阵H,经过归一化后为J,则有如下公式:
归一化完毕所有像素信息被归一化到0~255范围内,此时深度信息被转化为灰度信息,同一距离像素将拥有相同灰度值。
4.根据权利要求3所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤2中,对原深度下的数据做基于灰度信息的伪色彩线性变换,使原位深度下的最小值和最大值分别对应转换后位深度下的最小值和最大值,假设Src为表示图像的三维数组,维度分别是高度、宽度、维度,Dst为线性变换后输出数组,scale为比例因子,shift为偏移量,通过如下线性变换公式进行变换:
Dst=Deal(Src)×scale+(shift)
其中像素反变换矩阵Deal(src)由下述线性变换公式得出:
其中R(x,y)、G(x,y)、B(x,y)分别表示R、G、B通道的颜色值,f(x,y)表示特定点灰度图像的灰度值,f是所选灰度图像的灰度值;
输入图像后按照比例因子scale对数组进行缩放并对元素进行偏移,偏移量为shift,缩放完毕图像深度信息及像素信息发生相应变化从而色彩发生改变;
根据手部离相机远近确定比例因子,比例因子通过如下公式确定:
D×scale=255
其中D为感兴趣区域到相机的距离,通过设置不同感兴趣区域将不同的区域颜色进行高亮。
5.根据权利要求1所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤3中,将图像从RGB图像空间转换为HSV颜色空间;HSV由色调Hue、饱和度Saturation及明度Value三个分量组成;首先修改H的值来确定待分割颜色,其次动态调整S、V的值确定待分割颜色范围;
根据颜色空间表确定颜色的空间范围为,同时根据原始图片尺寸生成掩膜空间(img,lowerb,upperb),其中img是hsv格式图片、lowerb和upperb为掩膜空间范围;
拷贝hsv图片并对图像像素做掩膜运算,将掩膜空间范围内的图像像素值变为255即白色,其余图像像素值变为0即黑色,最后将原始img图片与根据掩膜空间处理后的图片做与运算,即剔除黑色并保留白色,获取原图掩膜位置区域,分割完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211007786.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:热套管装置
- 下一篇:一种皮肤炎症因子的检测装置和检测方法