[发明专利]一种基于深度学习的足球球员追踪方法有效
申请号: | 202011280591.4 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112308013B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 于永斌;艾梦巍;唐倩;张定发;王昊;李镖;卢玉锐;钟袁静扬;程曼;周晨;陆瑞军 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/25;G06V10/44;G06V10/75;G06N20/00 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 足球 球员 追踪 方法 | ||
1.一种基于深度学习的足球球员追踪方法,其特征在于,该方法包括以下步骤:
S1)点击选择路径按钮,在文件对话框中选择待追踪路径文件,并开始追踪;
S2)判断所选待追踪路径文件类型,若为视频或文件夹则返回每一帧图片,其他情况弹
出选择错误弹窗;
S3)在视频或文件夹的第一帧选择待追踪球员目标;
S4)将视频或文件夹的第一帧和当前待检测帧传入孪生区域选择网络,得到若干候选框;
S5)对得到的若干候选框首先去除靠近边界的候选框,并将候选框得分通过余弦窗和尺
度惩罚,最后经过非极大值抑制算法选出最优的候选框,此候选框位置为当前待检测帧目标位置;
其中,步骤S1)由前端界面实现,所述前端界面用于让用户选取待追踪的球赛视频并开始追踪任务,在前端界面设计上,使用了Python自带的tkinter库进行前端的编写,tkinter库在事件绑定方面直接在定义组件的时候通过command属性来直接绑定相应事件函数;前端使用了Label、Entry、Botton三种组件,点击选择路径Botton后,会调用文件对话框进行路径选择,并通过改变StringVar类型的变量动态改变前端的路径显示,并将路径传入追踪算法;
步骤S2)由路径判断和视频帧获取模块实现,所述路径判断和视频帧获取模块用来判断所选路径的文件类型,如果路径代表视频文件,以avi、mp4或MOV结尾,则截取视频帧并返回;如果路径是文件夹,则排序文件夹中的图片并返回;其他情况均视为选择错误,会弹出选择错误弹窗;
步骤S3)通过调用opencv中的selectROI()方法实现,后续会根据选取目标位置进行裁剪,得到模板帧;
步骤S4)所述孪生区域选择网络分为两个部分:第一个部分是使用了孪生网络结构的特征提取网络部分,分为模板分支和检测分支,模板分支和检测分支都以端到端的方式使用ImageNet数据集离线训练,当前待检测帧和模板帧在进入网络后都会通过一个有相同权重的特征提取网络部分进行特征的提取,使用两个分支的相关特征图进行特征提取,跟踪任务中没有预先定义分类,因此要将模板分支所提取的目标的形状、外貌信息编码到区域选择网络中以便区分目标和背景;特征提取网络是孪生网络结构追踪算法的一个重要部分,采用改进后的孪生区域选择网络,所述改进后的孪生区域选择网络使用了在ImgetNet上训练的ResNet50网络替换原有的AlexNet;
孪生区域选择网络的第二个部分也就是区域选择网络,所述区域选择网络又包括两个分支,分别是分类分支和回归分支两个部分,分类分支用来判断图片中物体的前景和背景概率,而回归分支则对预测目标的位置进行准确度位置回归;步骤S3)中的模板帧经过模板分支进行特征提取得到模板帧特征图,而当前待检测帧则通过检测分支进行特征提取得到当前待检测帧特征图,模板帧特征图经过卷积操作提升通道数,即下锚,然后作为卷积核与当前待检测帧特征图进行卷积,在此过程中根据各个锚点框对待检测帧进行多尺度搜索,生成一系列候选框;采用同一尺寸7种不同宽高比的锚点,此时k=7,并最终确定锚点框的宽高比为[0.33,0.4,0.5,1,2,2.5,3];在改变锚点的个数和宽高比后使用YoutubeBB数据集对该区域选择网络重新进行了训练;
步骤S5)对步骤S4)中所述区域选择网络产生的候选框进行选取,将靠近边界的候选框去除,并将候选框得分通过余弦窗和尺度惩罚,最后使用非极大值抑制算法进行最后的选取;
其中,所述步骤S4)中模板帧经过模板分支后得到6×6×256的特征图,当前待检测帧则经过检测分支后得到22×22×256的特征图,两个特征图输入所述区域选择网络;所述区域选择网络的结构具体为:所述区域选择网络分为上下两个分支:上面的为分类分支,判断前景和背景概率,下面的为回归分支,根据锚点框位置精确回归候选框坐标,模板帧的特征图在进入区域选择网络后首先经过卷积提升通道数,该过程又称为“下锚”,在分类分支变成4×4×(2k×256),其中k为锚点个数,在回归分支变为4×4×(4k×256);当前待检测帧也进行卷积操作但不改变通道数,在两个分支均变为20×20×256;之后在分类分支和回归分支分别将模板帧特征图和当前待检测帧特征图进行卷积操作,分类分支得到17×17×2k的特征图,包含2k个通道向量,代表原始图像上相应位置每个锚点框是目标的概率和是背景的概率,同样地,回归分支得到17×17×4k的特征图,包含4k个通道向量分别是dx、dy、dw、dh,用来衡量锚点框和预测的目标之间的位置差值,dx、dy代表中心位置坐标的差值,而dw、dh则代表以x、y为中心的矩形的长和宽的差值;模板帧特征图和当前待检测帧特征图进行卷积的过程中,相当于使用不同的锚点框分别对图像进行遍历查找,分类分支得到的17×17×2k的特征图相当于得到k个17×17×2的特征图,每个锚点都对应一个17×17×2的特征图,而两个17×17的特征图则分别对应当前锚点遍历后图像中对应位置的前景概率,即存在目标的概率和背景概率,即不是目标的概率;回归分支得到17×17×4k的特征图,则分别表示k个锚点框遍历后,图片对应位置目标相对于锚点位置的差值,即回归修正后的目标位置和原有锚点位置的差值,从而得到候选框;所述区域选择网络会输出一系列候选框,供后续步骤进行筛选;
所述步骤S5)具体包括:在经过区域选择网络后,通过一定的策略对产生的候选框进行选取,所述候选框为由锚点框回归得到的一系列目标可能的存在位置,将区域选择网络的分类分支中输出的17*17*2k的响应图进行一个去除边界的操作,得到15*15*2k的响应图;将去除边界后的响应图经过余弦窗口,进行一种空间惩罚,并经过尺寸penalty处理,最后根据非极大值抑制算法,对经过处理后的候选框进行选取,选出可能性最大的那个作为预测目标位置,进而完成了对区域选择网络所产生的候选框的选取工作;最后根据所选候选框在响应图中的坐标计算当前待检测帧原图中的目标坐标,调用opencv中的rectangle()方法标出目标位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011280591.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冻眠系统
- 下一篇:可折叠装置以及可折叠电子设备