[发明专利]一种基于yolo-v3框架整合横纵向信息的手势识别方法在审
申请号: | 202111559476.5 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114445908A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 王权;林克;朱坚;赵庆勇;林俊德 | 申请(专利权)人: | 福建新大陆软件工程有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06T3/40;G06K9/62;G06V10/774;G06V10/762 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 林燕 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 yolo v3 框架 整合 纵向 信息 手势 识别 方法 | ||
本发明提供了手势识别技术领域的一种基于yolo‑v3框架整合横纵向信息的手势识别方法,包括如下步骤:步骤S10、获取大量的手势图片,对各所述手势图片进行数据扩充得到图片集;步骤S20、利用滑动平均算法构建Decay BN层;步骤S30、通过横向卷积和纵向卷积构建yolo‑v3的主干网络;步骤S40、基于小目标损失构建损失函数;步骤S50、基于所述Decay BN层、主干网络以及损失函数构建一手势识别模型;步骤S60、利用所述图片集对手势识别模型进行训练;步骤S70、利用训练后的所述手势识别模型进行手势识别。本发明的优点在于:极大的提升了手势识别的精度。
技术领域
本发明涉及手势识别技术领域,特别指一种基于yolo-v3框架整合横纵向信息的手势识别方法。
背景技术
随着人机交互的日益流行,手势识别成为人机交互的一种重要方法,各领域都需要手势识别来支撑业务,例如活体检测可以通过手势的改变确定是否是照片冒充,聋哑教育可以通过手势来翻译想要表达的意思,家庭娱乐可以通过手势识别来提升游戏体感等。
但是,传统手势识别模型的识别精度还不尽如人意,原因如下:1、手势种类繁多,且很多手势相似,不同角度相似的手势很容易造成误判;2、手势在不同的场景下的尺寸规模不一致,而较小的手势在图片中出现的次数较少,现有损失函数注重尺寸规模较大的手势,因此在手势识别模型训练时会忽略较小尺寸的手势,较小尺寸的手势得不到重视,从而导致手势识别模型在小尺寸手势检测时不准;3、手势识别模型的主干网络采用通用的yolo-v3框架,没有基于手势识别这一具体问题进行改进。
因此,如何提供一种基于yolo-v3框架整合横纵向信息的手势识别方法,实现提升手势识别的精度,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于yolo-v3框架整合横纵向信息的手势识别方法,实现提升手势识别的精度。
本发明是这样实现的:一种基于yolo-v3框架整合横纵向信息的手势识别方法,包括如下步骤:
步骤S10、获取大量的手势图片,对各所述手势图片进行数据扩充得到图片集;
步骤S20、利用滑动平均算法构建Decay BN层;
步骤S30、通过若干个横向卷积和纵向卷积构建yolo-v3的主干网络;
步骤S40、基于小目标损失构建损失函数;
步骤S50、基于所述Decay BN层、主干网络以及损失函数构建一手势识别模型;
步骤S60、利用所述图片集对手势识别模型进行训练;
步骤S70、利用训练后的所述手势识别模型进行手势识别。
进一步地,所述步骤S10具体包括:
步骤S11、获取大量的手势图片;
步骤S12、利用相似度函数对各所述手势图片进行k-means聚类,得到N个类别;
步骤S13、分别从N个类别中依次选取一张所述手势图片,并对各所述手势图片的手势区域进行裁减得到子图片,并将所述子图片的尺寸修正为手势图片的1/N;
步骤S14、将各所述子图片拼接成第一图片,将各所述子图片随机旋转不同角度拼接成第二图片,对各所述子图片进行随机重复采样N次后拼接成第三图片,将所述子图片、第一图片、第二图片以及第三图片组成一个batch;
步骤S15、基于各所述batch组成数据扩充后的图片集。
进一步地,所述步骤S12中,所述相似度函数的公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建新大陆软件工程有限公司,未经福建新大陆软件工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111559476.5/2.html,转载请声明来源钻瓜专利网。