[发明专利]一种基于深度学习的动态手势动作识别方法有效
申请号: | 202010011805.1 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111209861B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 张烨;陈威慧;樊一超 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V40/10;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 动态 手势 动作 识别 方法 | ||
一种基于深度学习的动态手势动作识别方法,包括:步骤一,构建手势关节点坐标识别网络,利用改进的CPM模型对手势视频进行处理,输出单视点下的手势关节点坐标;步骤二,采集单视点视频数据;以单视点的形式对手势视频样本进行采集,即用一个普通的网络摄像头从多个角度捕捉用户的手势数据,其中包括:(2.1)定义基本手势元素;(2.2)选取手势关节点;(3)准备训练样本数据集;步骤三,输出手势高斯热图和手势关节点坐标;步骤四,构造手势序列识别网络,网络模型构造的具体流程如下:(4.1)定义激活函数;(4.2)选择损失函数;(4.3)建立模型;最后,将步骤三得到的关节点坐标输入标准手势序列识别网络,得到手势动作序列。
技术领域
本发明涉及一种基于深度学习的动态手势动作识别方法。
技术背景
在计算机视觉的发展浪潮下,利用卷积神经网络对人体手势动作进行识别已经成为新的研究方向。在手势动作识别方面,基于卷积神经网络的方法与传统方法相比,具有成本和耗时更低、识别效率更高的优点,省下了手势分割、人工提取特征和模板匹配的步骤,降低了模型的复杂度。但目前的手势识别方法仅仅是识别静态手势或动态手势是属于哪一类手势,属于对单个手势进行识别,没有对连续且有时间上的重叠的动态手势进行识别,究其原因就是因为没有一套针对组合的连续动作的识别框架,这也就导致此类手势识别无法在实际生产应用中发挥作用。
发明内容
本发明要克服现有技术的上述缺点,提出一种基于计算机视觉的手势动作识别方法。
本发明首先对CPM模型进行改进,以构建手势关节点坐标识别网络模型,然后在单视点下采集手势视频,接着将采集到的视频传入标准手势关节点坐标识别网络,得到手势高斯热图和关节点坐标。再把关节点坐标输入标准手势序列识别网络,得到手势动作序列,最终实现对连续动作的识别。
为实现上述目的,本发明采用以下技术方案:
一种基于深度学习的动态手势动作识别方法,包括如下步骤:
步骤一,构建手势关节点坐标识别网络;
本发明利用改进的CPM模型对手势视频进行处理,输出单视点下的手势关节点坐标,其实现流程如下:
(1)选择手势关节点估计的基础网络模型;
本发明选择VGG-13作为手势关节点估计的基础网络模型。
(2)设置感受野的;
感受野的大小与卷积或池化的滑动窗口有关,将两者看成是一个映射,将n层特征图上的k×k范围的像素值压缩到n+1层特征图上的一个像素内,表示为fks,其中s表示滑动窗口的步长,k表示卷积核或池化核的大小,其映射关系为:
其中:xn,xn+1为第n层和第n+1层的特征图。本发明的基本网络结构是基于VGG-13的,对于VGG-13的第一个部分,包含了两个卷积和一个池化,这三个结构形成了一个级联,因此映射过程在网络中多次重复,形成一个多级映射。各环节的感受野与卷积核或池化核的参数如表1所示:
表1级联下各层特征图对应的感受野和卷积核参数
记RFn为第n个特征图的感受野,Kn为第n个卷积层的卷积核或池化核的大小,Sn为Kn的步长,由表1中的感受野规律,可以归纳推导出感受野与步长以及卷积核大小的关系。
在第一层卷积后特征图的感受野大小为卷积核的大小:
RF1=K1 (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010011805.1/2.html,转载请声明来源钻瓜专利网。