[发明专利]一种基于区域全卷积网络的手势识别方法有效
申请号: | 201910419349.1 | 申请日: | 2019-05-20 |
公开(公告)号: | CN110334584B | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 杨锦 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/25;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区域 卷积 网络 手势 识别 方法 | ||
本发明公开了一种基于区域全卷积网络的手势识别方法,对于输入的手势图像,通过全卷积网络进行特征提取,获得一组特征图并生成候选框,而位置敏感子网络产生位置敏感得分图,通过池化层为每个手势类别进行打分,从而实现目标手势的定位与分类;本发明主要特点是整个区域全卷积网络是一个共享的全卷积结构,整个结构是端到端的学习,在实现高精度的识别率的同时避免了复杂的计算,并且结合OHEM技术,网络模型对负样本有了更高的拒识率,便于实际应用,对于人机交互领域有着重要意义。
技术领域
本发明涉及计算机视觉、机器学习和模式识别技术领域,具体涉及一种利用区域全卷积网络实现端到端的手势识别方法。
背景技术
当前,随着众多VR(Virtual Reality)和AR(Augmenting Reality)越来越受欢迎,使得人机交互技术受到越来越多的人关注。而手势作为一种最直接、最方便的人机交互方式受到了广大研究者的关注,手势识别逐渐成为计算机视觉领域重要的研究方向。计算机如何精确地识别出手势的意义则是手势人机交互系统中的重要一环,由于人手是复杂形变体,手势具有多样性、多义性以及时间上的差异等特点,并且手势通常处于复杂的场景中,像光照过亮或过暗、有多个手势存在以及手势与设备的距离不同等各种复杂的场景因素,手势识别仍然是一项巨大的挑战。
比较典型的手势识别方法主要基于隐马尔可夫模型、模板匹配和人工神经网络等。这些传统的手势识别方法必须人工设置特征,再对手势提取这些特征进行识别,存在处理过程复杂、效率低的缺点。
发明内容
本发明的目的是提供一种基于区域全卷积网络的手势识别方法,以提升识别效率,降低计算的复杂度。
为了实现上述任务,本发明采用以下技术方案:
一种基于区域全卷积网络的手势识别方法,包括以下步骤:
步骤1,建立全卷积网络
使用残差网络ResNet-34网络架构作为骨架,将RerNet-34网络的步长由32像素改为16像素,删除了ResNet-34网络架构的平均池化层和全连接层,然后利用ResNet-34网络架构的卷积层构建全卷积网络,以提取输入图像的特征;输入图像经过全卷积网络后输出特征图,特征图上的每一个像素点产生多个用于预测坐标框位置的候选框;
步骤2,建立区域候选网络
建立区域候选网络,该网络包括所述全卷积网络的最后一个卷积层,在该卷积层之后有两个分支,其中一个分支依次为卷积层、第一调整层、归一化层和第二调整层,该分支的作用是用于判断所述候选框属于前景、背景的分数,另外一个分支为一个卷积层,其作用是预测候选框与真实坐标框位置的偏移量;所述的第一调整层、第二调整层用于改变图像的维度,归一化层用于进行归一化操作;
步骤3,训练区域候选网络
筛选候选框用以训练区域候选网络,筛选的规则是:
如果候选框与真实坐标框的重叠率≥0.7,则认为该候选框是前景;如候选框与真实坐标框的重叠率0.3,则认为该候选框是背景;将前景、背景对应的候选框作为区域候选网络的训练数据进行训练,其中,前景对应的候选框为正样本,背景对应的候选框为负样本;区域候选网络训练的损失函数为:
L=cls_loss+λ*reg_loss
其中,λ为可调节参数;为了训练区域候选网络,将一个二进制类标签分配给需要训练的候选框,设pi是第i个候选框属于前景的预测概率,是真实标签,则
reg_loss用于回归候选框与真实坐标框的偏差量,定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910419349.1/2.html,转载请声明来源钻瓜专利网。