[发明专利]一种基于图像压缩的人体动作分析方法有效
申请号: | 201911217145.6 | 申请日: | 2019-12-03 |
公开(公告)号: | CN110991340B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 崔莉亚;刘皓东;赵红领;李润知;王菁 | 申请(专利权)人: | 郑州大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/82;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 河南大象律师事务所 41129 | 代理人: | 尹周 |
地址: | 450001 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 压缩 人体 动作 分析 方法 | ||
1.一种基于图像压缩的人体动作分析方法,其特征在于,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建,具体步骤1:通过手机采集人体正面正摇双脚跳过程中的视频流数据,记录并保存目标对象的基本信息,包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据;
步骤2:对不同设备采集的视频流数据进行高和宽的统一设定,将视频高设定为530cm,宽设定为460cm,构建深度学习的端到端的图像压缩框架,用以对视频的每一帧进行压缩,其步骤为:
步骤A1:获取手机或摄像机拍摄的视频数据,转换成统一的尺度;
步骤A2:在编码器端构建第一块卷积神经网络,来获得原始图像帧的特征表示信息,然后构建第二块卷积神经网络,对解码后的图像帧的特征表示信息进行复原,最终得到复原图像;
视频帧的压缩过程分为编码层和解码层,其中所述的编码层为三层卷积层并且第二层和第三层加入了批归一化,激活函数选择Relu,编码层的最后一层加入了Squeeze-and-Excituatuin块;解码层第一层使用了卷积层,第二层和第四层使用了subpixel层,第三层加入了Squeeze-and-Excituatuin块;
其中所述的Squeeze-and-Excitation块是一个计算单元,可以为任何给定的变换构建:Ftr:X→U,X∈RW′×H′×C′,U∈RW×H×C,Ftr为一个标准的卷子算子,V=[v1,v2,...,vC]表示学习到的一组滤波器核,vc指的是第c个滤波器的参数U=[u1,u2,...,uC],其中*代表卷积,X=[x1,x2,...,xC′],是2D空间核表示vc的一个通道作用于对应的通道X,W′,H′,C′为原始图像的长和宽以及通道数,W,H,C为经过一次变化的得到的新的长和宽以及通道数;
其中所述的subpixel层是一种巧妙的图像及特征图上采样的方法;
步骤3:对视频数据进行预处理,并对视频中每一帧的人体进行姿态估计,得到关键点坐标,其步骤如下:
步骤B1:获取压缩后的图像帧;
步骤B2:利用Open-pose方法对获得视频中每帧人体的鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝这14个关节点的坐标位置,坐标表示为Ci=(cxi,cyi),其中i从1到14;
步骤B3:Open-pose利用预测的关键点和真实值之间的高斯距离来定义关键点的置信度,并将置信度归一化到[0,1]的范围,在此定义为关键点的得分score并得到输出结果inputsi=(xi,yi,scorei);
步骤B4:对14个关键点得分求均值和方差,并将均值和方差的和作为整体关键点的得分结果,其中:
score总=score平均+score标准差;
步骤4:利用图像开窗的技术对关键点预测低的位置进行开窗并重新识别,利用全局信息和局部提升关键点的预测准确度,其步骤为:
步骤C1:利用Open-pose得到inputsi=(xi,yi,scorei),并对score设置阈值th,并找出小于阈值th的关键点;
步骤C2:对小于阈值的关键点,在关键点周围进行开窗,并将窗内的图像帧放入修改了输入的Open-pose网络中;
步骤C3:利用全局信息来更新局部帧中获得的关键点坐标,其中所述的图像开窗技术即,在原始图像中突出需要的目标信息,目的是为了检测此窗口内的关键点坐标位置;
步骤5:为了进一步提升算法对拍摄角度、目标远近、录制过程抖动等因素的鲁棒性,分别将关键点坐标进行归一化、转化为相对坐标以及标准化处理;关键点坐标的大小范围是相对于视频分辨率的,将坐标值(x,y)分别比视频分辨率(vw,vh)归一化到(0,1)范围,减小了不同视频分辨率以及不同肢体关键点的数值差异;然后选取脖颈部位的关键点(x0,y0)作为原点,则采用如下公式对其它坐标进行变换:
其中,(xi,yi)为人体关键点的坐标,即为转换后的相对坐标,并得到数据
其中,(xi,yi)为人体关键点的坐标,即为转换后的相对坐标;分类网络训练阶段对28个特征进行标准化处理,以降低不同样本的差异性,假设p代表同一时间步中样本的任一特征,即公式如下:
其中,μ为n个样本的均值,σ2为标准差,每个样本的特征通过进行标准化,则为转换后的鲁棒性特征;
步骤6:通过专业人员对视频进行分析,按时间段进行标记,记录并保存得到的标签;
步骤7:累计每帧得到的坐标矩阵P,得到每段视频的累计坐标矩阵D,利用滑动窗口对累计坐标矩阵进行窗口分割,即,滑动窗口长度设置为每20帧得到的累计坐标,步长设置为有50%的数据重叠;
步骤8:利用累计坐标矩阵D,构建数据的特征集X和标签集Y,其中X=Rd表示d维的输入空间,Y={0,1}q,表示可能标签的标签空间,T=(xi,yi)|1≤i≤m,m表示数据集的大小,xi∈X,是一个d维的向量,yi∈Y是Y的一个标签子集;
步骤9:利用深度神经网络构建多标签分类器h(·),预测作为x的正确标签集,其步骤为:
步骤D1:利用CNN融合RNN来构建网络模型,即,一个双向的LSTM(BiLSTM)模型和一个拥有两层卷积层加全局池化层的模型进行融合来构建深度神经网络模型;
在构建网络模型时,为了提高模型的泛化能力,加速模型学习速度,在BiLSTM层中加入Dropout层,为了实现多标签分类,最后一层激活函数设置为sigmoid激活函数,损失函数选择二元交叉熵(binary_crossentropy)损失函数;
步骤D2:将数据分为训练集和测试集两个部分,利用测试集训练训练网络模型,并保存预训练模型;
步骤D3:将测试数据输入到训练好的模型中,得到预测的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911217145.6/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序