[发明专利]一种基于Head轻量化Mask Scoring R-CNN的手势识别方法有效

专利信息
申请号: 202010218568.6 申请日: 2020-03-25
公开(公告)号: CN111401293B 公开(公告)日: 2022-06-24
发明(设计)人: 徐好好;单志勇;徐超 申请(专利权)人: 东华大学
主分类号: G06V40/10 分类号: G06V40/10;G06V10/26;G06V10/774;G06V10/82;G06K9/62;G06N3/04
代理公司: 上海申汇专利代理有限公司 31001 代理人: 徐俊
地址: 201600 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 head 量化 mask scoring cnn 手势 识别 方法
【说明书】:

发明涉及一种基于Head轻量化Mask Scoring R‑CNN的手势识别方法,在原始Mask Scoring R‑CNN主干网络的输出特征图之后引入一个轻量化的位置敏感得分图和位置敏感RoIAlign,使得Head结构的输入RoI通道数变得很小,并且将Head结构中连续的两个全连接层改为单个全连接层来减少计算量。本发明以DetNet59结合FPN作为主干网络,使得提取的多尺度特征图能够同时包含丰富的语义信息和位置信息并且能够适应各种尺寸的物体进行检测。经本发明改进后的实例分割模型在平均精准度上得到明显提升,模型参数数量得到有效降低,模型的训练和检测速度得到了有效提高。

技术领域

本发明涉及一种基于Head轻量化Mask Scoring R-CNN的手势识别方法,属于计算机视觉和深度学习领域。

背景技术

手势识别是计算机视觉领域的一个重要分支,其核心是使用‘机器眼’来代替人眼识别图像或视频采集装置中的手部姿势,将采集到的图像或视频输入到视觉算法中进行计算,最终得到手部信息。这里提到的视觉算法有很多种,例如,传统的图像处理方法以及近些年的深度学习方法等。在深度学习出现以前,传统的图像处理和机器学习方法并不能很好地完成一个简单的图像分类任务,而深度学习的出现使得计算机有了达到人类水平的可能。事实上,AlphaGo的出现已经证明了在一些领域,计算机有了超越人类的能力。

计算机视觉包含几类基础任务:图像分类,目标检测,语义分割,实例分割,目标跟踪等。基于深度学习的计算机视觉模型往往可以取得更高精度的预测结果,其主要包括以SSD,YOLO为代表的一阶段检测模型,和以R-CNN系列为代表的二阶段检测模型。一阶段的检测模型是直接对锚框进行预测的,而二阶段的检测模型首先通过RPN生成候选区域,然后对候选区域进行预测。

Girshick R,Donahue J等人提出的R-CNN模型首先通过选择性搜索生成2000个RoI,然后将全部的RoI通过主干网络提取特征,最后通过SVM分类器和回归模型进行分类和边界框预测,但是R-CNN的速度很慢,训练和预测过程都需要将上千个RoI全部通过主干网络获取特征,这个步骤将花费大量的时间,在实际应用中无法做到实时性检测,并且主干网络,分类器和回归模型均单独训练,主干网络的参数不会因训练SVM和回归模型而更新,这导致模型检测精度不够高。Girshick R提出的Fast R-CNN将RoI共享主干网络卷积计算,只需要将原图进行一次前向传播获取特征图,RoI在特征图对应位置上提取特征即可,引入RoI Pooling将RoI统一到相同尺寸使得分类和回归部分可以同主干网络一起训练,但是前期的选择性搜索仍然占用了大部分计算时间。何凯明等人提出的Faster R-CNN引入了RPN网络,将提取提议区域的过程设计为一个小型的全卷积网络放入整个模型与其他部分一起训练,真正做到了端到端的目标检测框架。何凯明等人基于Faster R-CNN提出了实例分割框架Mask R-CNN,在Head部分加入了Mask Head,用一个简易的FCN结构做到了掩码预测,同时用RoIAlign代替了RoI Pooling解决了RoI Pooling因两次量化导致的RoI提取不准确问题。Zhaojin Huang等人认为Mask R-CNN中衡量掩码质量的标准不应该是分类置信度,应该是预测掩码与真实掩码的像素级交并比,即MaskIoU,于是提出了Mask Scoring R-CNN,基于MaskHead添加了一个MaskIoU Head用于预测MaskIoU,最后通过分类置信度与MaskIoU的乘积作为Mask的得分值。

发明内容

本发明要解决的技术问题是:一阶段的手势检测器精度不够高,无法对手势掩码进行细致的预测;二阶段的手势检测器速度过慢。

为了解决上述技术问题,本发明的技术方案是提供了一种基于Head轻量化MaskScoring R-CNN的手势识别方法,其特征在于,包括以下步骤:

步骤1、建立改进的Mask Scoring R-CNN实例分割模型,该改进的MaskScoring R-CNN实例分割模型包括主干网络、RPN网络、PSRoI Align及Head结构,其中:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010218568.6/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top