[发明专利]一种基于稀疏时间分段网络的视频动作识别方法在审

申请号：	201810516281.4	申请日：	2018-05-25
公开（公告）号：	CN108764128A	公开（公告）日：	2018-11-06
发明（设计）人：	温世平;曾小芬;黄廷文	申请（专利权）人：	华中科技大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	华中科技大学专利中心 42201	代理人：	李智;曹葆青
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	时间分段网络动作识别稀疏优化视频尺寸调整提取信息裁剪存储空间视频信息网络获取网络结构稀疏卷积信息输入训练视频结构化稀疏度长段卷积权重双流融合输出期望
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于稀疏时间分段网络的视频动作识别方法，其特征在于，该方法包括以下步骤：

S1.构建时间卷积神经网络和空间卷积神经网络；

S2.准备训练视频集合，从每个训练视频中提取信息，对时间卷积神经网络和空间卷积神经网络进行第一次训练和第一次优化，使得损失函数最小；

S3.在第一次优化后的时间神经网络和空间神经网络的损失函数中加入稀疏项；

S4.对加入稀疏项的时间卷积神经网络和空间卷积神经网络进行第二次训练和第二次优化，使得加入稀疏项的损失函数最小；

S5.对第二次优化后的时间卷积神经网络和空间卷积神经网络进行裁剪和尺寸调整；

S6.对尺寸调整后的时间卷积神经网络和空间卷积神经网络进行第三次训练和第三次优化，判断识别精度或者稀疏度是否达到期望，若否则重复步骤S3-S5，若是，则得到第三次优化后的时间神经网络和空间神经网络；

S7.从待识别视频中提取信息，将提取的信息输入至第三次优化后的时间神经卷积网络和空间卷积神经网络，将时间卷积神经网络和空间卷积神经网络的输出融合后得到动作识别结果。

2.如权利要求1所述的视频动作识别方法，其特征在于，从视频V中提取信息，包括以下步骤：

(1)将视频V划分成K段等长的片段{S₁,S₂,...,S_K}；

(2)从每个片段中随机选取一帧，该帧的信息包括RGB图像及对应的光流信息，光流信息包括水平方向的光流图像和垂直方向的光流图像；

(3)将所有选取的帧拟合为一长度为K的片段{T₁,T₂,...,T_K}。

3.如权利要求1所述的视频动作识别方法，其特征在于，步骤S2中损失函数的计算公式如下：

其中，C是动作类别的数量，y_i是动作类别i所对应的标签真值，G_i表示G的第i个维度，G＝g(F(T₁；W),F(T₂；W),...,F(T_K；W))，g表示分段一致性函数，综合了多个短片段的输出，以获得一个一致的类别假设，F(T_K,W)表示具有参数W的卷积神经网络函数，其对短片段T_K起作用，并对所有类别中进行评分。

4.如权利要求1所述的视频动作识别方法，其特征在于，所述方法使用按通道和/或滤波器的结构化稀疏，加入稀疏项的损失函数计算公式如下：

L(W)＝L_D(W)+λ_nL_n(W)+λ_sL_s(W) (3)

L_s(W)＝λ_fL_f(W)+λ_cL_c(W) (5)

其中，L_D(W)表示模型在训练数据上的损失，L_n(W)表示一般的正则损失项，例如，l₁正则项或l₂正则项，λ_n表示一般正则损失项的超参数，L_s(W)表示由稀疏项引入的损失，λ_s是稀疏项的超参数，λ_f是滤波器稀疏项的超参数，λ_c是通道稀疏项的超参数。

5.如权利要求4所述的视频动作识别方法，其特征在于，按滤波器稀疏对应的稀疏项计算公式如下：

其中，N表示网络中卷积层的数量，H、WID分别表示卷积核的高和宽，n_height和n_width分别表示当前参与运算的卷积核上点的坐标，表示第n层卷积层中第三维是n_height、第四维是n_width、第一维和第二维取任意值时得到的权值矩阵，|| ||是正则运算。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810516281.4/1.html，转载请声明来源钻瓜专利网。