[发明专利]一种基于稀疏时间分段网络的视频动作识别方法在审
申请号: | 201810516281.4 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108764128A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 温世平;曾小芬;黄廷文 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间分段 网络 动作识别 稀疏 优化 视频 尺寸调整 提取信息 裁剪 存储空间 视频信息 网络获取 网络结构 稀疏卷积 信息输入 训练视频 结构化 稀疏度 长段 卷积 权重 双流 融合 输出 期望 | ||
1.一种基于稀疏时间分段网络的视频动作识别方法,其特征在于,该方法包括以下步骤:
S1.构建时间卷积神经网络和空间卷积神经网络;
S2.准备训练视频集合,从每个训练视频中提取信息,对时间卷积神经网络和空间卷积神经网络进行第一次训练和第一次优化,使得损失函数最小;
S3.在第一次优化后的时间神经网络和空间神经网络的损失函数中加入稀疏项;
S4.对加入稀疏项的时间卷积神经网络和空间卷积神经网络进行第二次训练和第二次优化,使得加入稀疏项的损失函数最小;
S5.对第二次优化后的时间卷积神经网络和空间卷积神经网络进行裁剪和尺寸调整;
S6.对尺寸调整后的时间卷积神经网络和空间卷积神经网络进行第三次训练和第三次优化,判断识别精度或者稀疏度是否达到期望,若否则重复步骤S3-S5,若是,则得到第三次优化后的时间神经网络和空间神经网络;
S7.从待识别视频中提取信息,将提取的信息输入至第三次优化后的时间神经卷积网络和空间卷积神经网络,将时间卷积神经网络和空间卷积神经网络的输出融合后得到动作识别结果。
2.如权利要求1所述的视频动作识别方法,其特征在于,从视频V中提取信息,包括以下步骤:
(1)将视频V划分成K段等长的片段{S1,S2,...,SK};
(2)从每个片段中随机选取一帧,该帧的信息包括RGB图像及对应的光流信息,光流信息包括水平方向的光流图像和垂直方向的光流图像;
(3)将所有选取的帧拟合为一长度为K的片段{T1,T2,...,TK}。
3.如权利要求1所述的视频动作识别方法,其特征在于,步骤S2中损失函数的计算公式如下:
其中,C是动作类别的数量,yi是动作类别i所对应的标签真值,Gi表示G的第i个维度,G=g(F(T1;W),F(T2;W),...,F(TK;W)),g表示分段一致性函数,综合了多个短片段的输出,以获得一个一致的类别假设,F(TK,W)表示具有参数W的卷积神经网络函数,其对短片段TK起作用,并对所有类别中进行评分。
4.如权利要求1所述的视频动作识别方法,其特征在于,所述方法使用按通道和/或滤波器的结构化稀疏,加入稀疏项的损失函数计算公式如下:
L(W)=LD(W)+λnLn(W)+λsLs(W) (3)
Ls(W)=λfLf(W)+λcLc(W) (5)
其中,LD(W)表示模型在训练数据上的损失,Ln(W)表示一般的正则损失项,例如,l1正则项或l2正则项,λn表示一般正则损失项的超参数,Ls(W)表示由稀疏项引入的损失,λs是稀疏项的超参数,λf是滤波器稀疏项的超参数,λc是通道稀疏项的超参数。
5.如权利要求4所述的视频动作识别方法,其特征在于,按滤波器稀疏对应的稀疏项计算公式如下:
其中,N表示网络中卷积层的数量,H、WID分别表示卷积核的高和宽,nheight和nwidth分别表示当前参与运算的卷积核上点的坐标,表示第n层卷积层中第三维是nheight、第四维是nwidth、第一维和第二维取任意值时得到的权值矩阵,|| ||是正则运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810516281.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:纹理识别方法及其装置
- 下一篇:货架以及购物系统