[发明专利]一种基于深度学习的体育视频关键姿态提取方法有效
申请号: | 201611211395.5 | 申请日: | 2016-12-24 |
公开(公告)号: | CN106709453B | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 毋立芳;张世杰;贺宇迪;简萌;王向东 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 体育 视频 关键 姿态 提取 方法 | ||
1.基于深度学习的体育视频关键姿态提取方法,
举重过程中一共分为四个关键姿态,分别为申膝、引膝、发力和最高点;
其特征在于:
1)、首先将视频进行分帧处理;
2)、利用全卷积网络提取运动员前景信息;
FCN(全卷积网络)将CNN(卷积神经网络)中的全连接层转化成一个个的卷积层;在CNN结构中,前5层是卷积层,第6层和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000个类别的概率;FCN将这3层表示为卷积层,卷积核的大小(通道数,宽,高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1);所有的层都是卷积层,故称为全卷积网络;
(1)训练样本集、验证样本集的制作
1)生成groundtruth;
2)制作标签;将训练集中前景即人体和杠铃标记为1,将背景区域标记为0,作为训练的监督信号;
3)训练模型;
采用全卷积网络对模型进行训练,使用AlexNet网络,利用训练好的模型,经过数万次的迭代,最终得到能够分类举重视频的模型;将AlexNet中第7层的输出参数改为2,对应举重帧图像的前景和背景两类;
(2)将所有的举重视频利用训练好的模型得到分割后的图像
利用训练好的模型,将所有的举重帧图像进行前景和背景的分割,模型对图像的每个像素点进行判断,找到对应前景和背景的像素点的阈值0.85,如果预测值小于0.85,则该像素点被判断背景,如果预测值大于等于0.85,则该像素点被判断为前景,利用这个阈值,生成新的图像,当小于这个阈值的时候,将像素值设置为255,大于等于这个阈值的时候,将像素值设置为0;
3)、将分割的结果进行聚类,优化分割结果;
(1)将视频分割的结果取并集,作为最终的分割依据;
(2)区域粗分割
1)置所有点的标签(label)为0;
2)从左上点开始遍历像素,若该点的四邻域像素值为255,则赋予当前最大的标签值加1的值,否则取四邻域像素的标签值中不为0的最小值为当前像素的标签值;
(3)区域分割微调
分别依次以图像的四角作为开始点对图像进行遍历,更新每个像素点的标签值为四邻域点标签值中不为0的最小值,直到所有点的标签值不再变化;
4)、对原图像切割;
(1)获取最大区域的四周边界
1)找到出现次数最多的两个标签值,确定出现次数最大标签值的四周边界值,边界值取的是原图的边界;
2)对于获得的区域,假设范围为minWidth到maxWidth,图像的宽为Width,如果maxWidth<3/8*Width或者minWidth>5/8*Width,就判定为不在中间区域;若不在中间区域则取出现次数第二多的标签值对应的区域为最大区域,获取其四周边界值;
(2)切割原图
在数组中检索到实验图像聚类后对应的四周边界,截取图像并保存;
5)、利用卷积神经网络对分割好的图像进行分类;
卷积层后面接入的是全连接层,全连接层后面是分类器;全连接层F1和全连接层F2对数据进行线性变化和非线性变化,把6*6*256维的降维到4096;最后,全连接层F3将数据降维成4维,也就是本发明中申膝、引膝、发力和最高点四类;
(1)制作标签;
将数据分为训练集、验证集和测试集;将训练集和验证集手动制作标签,把申膝、引膝、发力和最高点四类设置标签为0,1,2,3,进行有监督的学习;
(2)训练模型;
将训练集和测试集生成对应的lmdb格式的数据,利用在ImageNet数据集上训练好的模型进行微调,然后输入到卷积神经网络进行训练,经过若干次的迭代,使得准确率loss值稳定在0.1-0.2,最终得到训练好的模型;
(3)测试
将测试集的整个视频用训练好的模型进行测试,视频的每一帧都会有对应的四类的概率,我们选取各个类最大概率作为我们想要的关键姿态,输出对应的帧图像,即为我们想要的关键帧;选取测试集中的一个视频进行测试,下图表为视频各帧图像对应四类的概率变化曲线,其中横坐标为各帧图像,纵坐标为对应的概率值。
2.根据权利要求1所述的基于深度学习的体育视频关键姿态提取方法,其特征在于,卷积神经网络对分割好的图像进行分类中的卷积神经网络具体如下:
该网络由5个卷积层、3个全连接层组成,C1到C5为5个卷积层,F1到F3为全连接层,并且只给卷积层C1、卷积层C2和卷积层C5加入了pooling层;F1到F3是全连接层,全连接层后跟着一个分类器;在微调的时候,我们将AlexNet中F3的输出由1000改为4,原因是整个举重视频有4个关键姿态分别为:申膝、引膝、发力和最高点;具体的微调过程如下:
首先,网络的输入图像都被resize到227*227,并以lmdb的数据格式输入到网络中,其中图像为三通道,所以数据量大小为227*227*3;
C1到C5为卷积层,以卷积层C1为例,其卷积核的大小为11*11步长为4,C1层共96个卷积核,对输入的图像进行卷积操作,输出为96个55*55大小的图片;在C1卷积滤波后,加入线性纠正函数ReLU来加速收敛,之后用核大小为3,步长为2的max-polling层,最终得到96个27*27大小的图像;
通过卷积核的大小为5、填充为2、卷积步幅为1、共有256个卷积滤波器的卷积层C2,得到256个27*27大小的图像,通过最大池采样层后降维到13*13的图像;通过卷积核大小为3、填充为1、卷积步幅为1、共有384个滤波器的卷积层C3,得到384个27*27大小的图像;通过卷积层C4得到384个13*13大小的图像;通过卷积层C5则得到256个6*6大小的图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611211395.5/1.html,转载请声明来源钻瓜专利网。