[发明专利]基于多粒度卷积神经网络剪枝的教师板书动作识别方法在审

申请号：	202110130937.0	申请日：	2021-01-30
公开（公告）号：	CN112800977A	公开（公告）日：	2021-05-14
发明（设计）人：	张文博;包振山;周晚晴;杜嘉磊	申请（专利权）人：	北京工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于粒度卷积神经网络剪枝教师板书动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多粒度卷积神经网络剪枝的教师板书动作识别方法，其特征在于：

(1)OpenPose进行特征提取

首先，采用尺寸为w×h的RGB图像作为输入，然后OpenPose的主干网络对基本特征进行前馈计算，同时提取一组预测人体关键点的二维置信度图S和一组表征人体关键点之间的关联程度的二维矢量场V；集合S＝(S₁，S₂，S₃，…，S_j，…，S_J),S_j∈R^w*h，R^w*h指的是输入的尺寸为w×h的全部RGB图像，包含J个置信图，每个置信图表示一类人体关节的关键点，图中每个响应峰值表示有一个关键点存在；集合V＝(V₁，V₂，V₃，…，V_c，…，V_C)，V_C∈R^w*h*2具有C个二维向量域，每个肢体对应一个二维向量域，编码了肢体的每个部分指向另一个部分的方向；最后，通过匈牙利算法解析置信度图和亲和度字段，输出图像中所有人体的关键点信息；

OpenPose由基础的VGG19网络以及两个循环的分支组成；分支一预测关键点的位置，分支二预测肢体之间的亲和域，俗称PAFs；第一个阶段的两个分支以VGG输出的特征图F作为输入，得到一组输出S¹＝ρ¹(F),其中ρ()和φ()表示回归函数，回归函数具体为其中D为卷积核，使用3X3卷积，F是输入特征图；之后的分支分别以上一个分支的输出S^t-1和V^t-1和特征图F作为输入，得到新的分支的输出S^t和V^t，最终通过重复t次本过程输出人体关键点置信图S和表征关键点关系的亲和力场矩阵V，t为迭代次数，取值大于等于2，迭代到输出S^t收敛为止，收敛意味着S^t的值不再变化；其计算过程如公式(1)及(2)所示；

在OpenPose算法输出形式上，采用类别为COCO的输出模型；将COCO模型中编号为0,1,2,3,4,5,6,7,14,15,16,17的12个关键点激活，将这些激活的关键点坐标作为下一阶段的原始输入数据；

(2)坐标归一化

采用公式(3)所示的方法对得到的关键点坐标做位置归一化处理；公式中坐标原点(A₀,B₀)为人体的颈部关键点，(A_max,B_max)和(A_min,B_min)分别为样本数据中的最大最小值，(A_b,B_b)及(A_b,B_b)分别是归一化处理前后的关键点坐标；

(3)BP神经网络分类

把步骤(2)所得到的归一化的关键点输入到BP神经网络中，训练BP神经网络；BP神经网络组成如下：输入层神经元个数为1×24，24是把12个2维坐标点数据变为一维数据得来的，关键点隐藏层神经元个数为32个，输出层包含2个神经元，分别表示板书状态和非板书状态，通过Softmax分类器进行区分；Softmax函数的输出及损失函数L()分别如公式(4)及公式(5)所示；式(4)中y_q是步骤(2)所得到的拥有q个归一化处理后的关键点的向量，每个q会对应一个Softmax，n为输出类别个数，对教师动作进行二分类，即n＝2；y_q’即为Softmax函数的输出值，为了方便书写，后文中用y_q’代替表示Softmax函数的输出值；后文中除特别说明外，提及到的损失函数L()的意义相同，也都是用公式(5)的计算方法计算的；

2.如权利要求1所述的基于多粒度卷积神经网络剪枝的教师板书动作识别方法，其特征在于所述步骤(1)中OpenPose的算法具体如下：

(2.1)截取refinement stage

通过对OpenPose进行分析，发现在OpenPose算法中，图像特征提取使用VGG19网络的前4个卷积模块，在提取特征完成后使用两个卷积层即Conv4-3、Conv4-4对特征图进行降维；经过降维后的特征图分别输入到两个分支中进行人体关键点的回归和表示两个关键点之间关联度的部位亲和向量场的预测；两个分支具有相同的级联网络结构，由一个initialstage和一个循环2次的refinement stage组成；

(2.2)对VGG19骨干网络进行模型压缩

VGG19网络包含16个卷积层和3个全连接层，卷积层核的大小均为3X3，选用提出的多粒度卷积神经网络剪枝框架对OpenPose的骨干网络进行压缩；具体步骤为首先固定OpenPose中两个循环分支Initial stage和refinement stage以及BP神经网络部分的参数，对VGG19网络进行多粒度卷积神经网络剪枝；在剪枝过程中，固定网络中的其余层参数不变，仅对网络的前10层进行剪枝；在再训练过程中，固定网络中其余层参数不变，仅更新网络前10层的参数，最后，采用COCO数据集对整个OpenPose算法进行再训练，以恢复由VGG19的网络变化导致的精度损失；将剪枝完成后的网络模型替换原来的网络模型,即完成了OpenPose算法的优化；对于VGG19网络，除了剪枝方法外，其他部分并未做出改动；

剪枝具体过程如下：

(3.1)对输入的网络模型的卷积层逐层进行滤波器级剪枝，具体为：

首先，随机挑选若干张图像作为评估集，计算每张图像作为输入时滤波器输出特征映射的均值，作为滤波器对输入图像的响应值，由此获得这批图片集的响应张量；然后，采用信息熵衡量张量的变化程度，将张量元素的取值范围等量划分为m块，m的取值中推荐采用10，然后统计每个块包含元素的数量并计算发生概率p_j，按照公式(6)计算信息熵；

其中H_i,k代表第i层第k个滤波器生成的张量的信息熵，j代表当前是第几块，N和C_i分别表示网络层数及第i层卷积层中包含的通道数；信息熵计算完成后，将第i层卷积层中各滤波器按照信息熵大小按照升序排序；用户根据对待压缩的卷积神经网络进行评估，可设定期待压缩率C_r，可直观理解为用户期待压缩后网络中剩余滤波器的比例；C_r的取值在0到1之间，中推荐采用0.5；使用公式(7)计算对应层需要剪除的滤波器个数；

R_i＝C_i(1-C_r) (7)

将第i层对应排序后的前R_i个滤波器删除，并将i+1层中对应的二维卷积核剔除，即完成剪枝；

实现上，该过程需要设置与卷积神经网络模型规模完全一致的二进制掩码矩阵T，T为0-1矩阵，用于表征剪枝状态，T矩阵中的每个元素均对应网络模型中的一个参数，元素的初始值均设置为1，当剪枝掉一个滤波器时，就将该滤波器对应的矩阵元素值均设置为0；因此，对于滤波器组W_i,k，当其输入特征图为F_i时，卷积运算的变化如公式(8)所示；

其中f()表示激活函数，T_i,k是与W_i,k对应的掩码矩阵，代表卷积运算，⊙为哈达玛乘积；

卷积神经网络是一种前馈计算的神经网络，基本组成单元为神经元，多个神经元构成一个提取图像基本特征的二维向量，该二维向量在后文中简称特征矩阵，多个二维向量构成卷积层，邻近两个卷积层通过神经元连接传递信息，而同一卷积层中的神经元间互相独立；卷积层用来对输入向量提取特征，每层卷积层由多个通过反向传播算法训练的滤波器组构成；令w_i和h_i分别表示输入三维特征向量的宽、高，X_i经卷积计算后变为输出特征向量该向量将继续作为下一卷积层的输入；卷积层运算是在C_i个输入通道上应用C_i+1个滤波器来实现的，一个滤波器对应生成一个特征向量，其中每个滤波器由C_i个卷积内核组成；因此，第i+1层卷积层的运算次数是C_i+1C_ik²h_i+1w_i+1；修剪第i层的一个滤波器减少C_ik²h_i+1w_i+1次操作，同时第i+1层的对应输入特征向量也被移除，由此可减少C_i+2k²h_i+2w_i+2次操作，则修剪第i层中的M个滤波器，M的值与上文中的m取值相同，分别减少第i层和第i+1层的m/C_i+1的计算量；

(3.2)对滤波器级网络剪枝后的网络模型进行连接级剪枝，具体为：

采用动态剪枝方法，通过公式(9)设定阈值TH_A、TH_B，其中TH_B≥TH_A≥0；将低于阈值Th_A的连接剪除，并将高于阈值TH_B的连接恢复，这种可恢复的机制防止了剪枝过程中误删除重要连接导致的网络无法恢复的问题；

公式(9)中的W_i,k表示第i层第k个滤波器中的一组参数，公式中mean()表示求该组参数的平均值，std()表示求该组参数的标准差函数；s取值为-1；Δt取值为-2*s*std(W_i,k)；连接的剪除与恢复通过设置掩码矩阵的对应元素的置位与清零来实现；令W_i,k(p)为第i层第k个滤波器W_i,k中的第p个参数，T_i,k(p)为掩码矩阵中与之对应的元素，则掩码矩阵中每个元素的更新策略如公式(10)所示；

再对网络参数更新时，采用随机梯度下降法的更新策略，如公式(11)所示；

其中字符I表示深度网络中所有滤波器的集合，L()表示该剪枝过程中网络的损失函数，在公式(11)中先对损失函数取偏导数β是参数更新的学习率，为了避免由于β取值过小造成的参数不再更新的问题，在中β取值为：0.0001≤β≤1；

(3.3)精度恢复训练策略——L1和L2正则化的使用

最小化目标函数，见公式(12)；

在公式(12)中，ω表示网络模型中待处理的参数，ω*表示经过正则化处理后得到的参数；λ为正则项参数，λ值的定义将在下文L1和L2正则化的介绍中分别给出；公式(12)中的第一项代表网络模型对第e个样本的预测值f(x_e；ω)和训练标签y_e之间的误差；公式(7)中的第二项Ω(ω)是用对参数ω的规则化函数，规则化函数Ω(ω)有很多种选择，主要针对L1正则化与L2正则化进行介绍；采用如下给出的L1正则化与L2正则化方法，具体方法为在滤波器级剪枝完成后的恢复训练过程中引入L1正则化，在连接级剪枝方法的恢复训练过程中引入L2正则化；

· L1正则化

在滤波器级剪枝完成后，恢复训练过程中引入L1正则化；已知网络模型待处理参数ω的L1正则项如公式(13)所示；

其中，ω中含有的批处理参数尺寸的大小为n_L1；L1正则项的计算过程为取这些参数绝对值求和；

根据正则化的定义可知，带L1正则化项的损失函数见式(14)；

对带有L1正则化项的目标函数进行求导，结果见式(15)；

L1正则化时，当利用梯度下降法更新ω，其更新过程见公式(16)，其中β同上文，为参数更新的学习率且0.0001≤β≤1，；

公式(16)在梯度下降算法过程中，正则项参数λ≥0；

· L2正则化

在连接级剪枝的恢复训练过程中引入了L2正则化，以下将介绍L2正则化过程；对网络模型待处理参数ω的L2正则化过程见公式(17)，其中n_L2表示ω中含有的批处理参数的个数；

L2正则项的计算过程为取这些参数的平方和；

根据正则化的定义可知，带L2正则化项的损失函数(见式(18))；

其中，表征未作正则化前的初始函数，表征经过L2正则化后得到的函数；

对带有L2正则化的目标函数进行求导，结果见公式(19)；

L2正则化时，当利用梯度下降法更新ω，其更新见公式(20)，其中n和β的定义均同上文，λ为正则项参数；首先，根据待训练次数的预期，先确定学习率β，中推荐采用0.0001；而后，关于λ的值，采用“由粗到细”的方法调整，其初始值从1开始逐步增大/缩小，在训练集上学习到参数，然后在测试集上验证误差，以寻求能使测试集验证误差更小的参数；重复进行上述过程，直到测试集上的误差最小；中先将正则项参数设置为1，然后根据验证集所处范围将逐步增加，每次增加10倍；若经过2-3次探索后测试集上的误差无变化或增大，则调整为逐步减小，每次减小10倍；以此类推直到找到使测试集误差最小的数量级；而后，在此数量级水平下再做更“细”调节，具体做法是在最低位上从0开始，每次使最低位上的值增加1，直到找到使测试集误差最小的值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110130937.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种互联网医院服务平台系统
下一篇：一种发泡级生物降解聚酯材料及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多粒度卷积神经网络剪枝的教师板书动作识别方法在审

专利文献下载