[发明专利]基于空域分类网络和时域分类网络融合的视频分类方法有效

申请号：	201810475657.1	申请日：	2018-05-17
公开（公告）号：	CN108764084B	公开（公告）日：	2021-07-27
发明（设计）人：	韩冰;褚福跃;王平;高新波;连慧芳;张萌	申请（专利权）人：	西安电子科技大学
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华;朱红星
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于空域分类网络时域融合视频方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于空域分类网络和时域分类网络融合的视频分类方法，包括：

1)获取训练集和测试视频：

从已标记类别的视频数据库中任取N个视频组成训练集：X＝{x₁,x₂,...,x_k,...,x_N}，其中x_k是第k个训练集视频，x_k的标签为y_k，k＝1,2,...,N；

将剩余视频组成测试集，从测试集中取一个视频作为测试视频x_test；

2)提取训练集X中训练集视频x_k的全部视频帧其中，τ＝1,2,...,T，T为视频x_k中所包含视频帧的数目，以训练集视频x_k的标签y_k作为全部视频帧的标签；

3)以全部视频帧及其标签y_k作为训练数据，对卷积神经网络进行训练，得到训练好的卷积神经网络Z；

4)提取全部视频帧的特征：

4a)计算全部视频帧的视觉注意力特征

4b)使用步骤3)训练好的卷积神经网络Z对视觉注意力特征进行提取，得到空域特征矩阵

4c)使用步骤3)训练好的卷积神经网络Z对全部视频帧进行特征提取，得到时域特征矩阵

5)利用空域特征矩阵对空域分类网络进行训练；按如下步骤进行：

5a)将空域特征矩阵转换为一维特征向量

5b)将一维特征向量输入到soft-max分类器，计算空域分类网络上全部视频帧属于不同视频类别的概率：

其中为空域分类网络上全部视频帧属于第m类视频的概率；

5c)根据训练集视频x_k中全部视频帧属于不同视频类别的概率计算空域分类网络上训练集视频x_k属于不同视频类别的概率：

ps_k＝{ps_k(1),ps_k(2),...ps_k(m),...ps_k(M)}，

其中ps_k(m)为空域分类网络上训练集视频x_k属于第m类视频的概率，其计算方法为：

5d)计算训练集视频x_k的标签y_k和ps_k之间的交叉熵ls_k：

ls_k＝-log(ps_k(y_k))；

5e)求空域分类网络在训练集X上交叉熵的均值：

5f)根据交叉熵的均值ls，使用反向传播算法更新空域分类网络参数，得到训练后的空域分类网络；

6)利用时域特征矩阵对时域分类网络进行训练；按如下步骤进行：

6a)将时域特征矩阵输入到时域分类网络中的长短时记忆网络单元中，得到时刻τ＝1时的网络输出和网络状态

6b)将时域特征矩阵和网络状态共同输入到时域分类网络中的长短时记忆网络单元中，得到网络输出和网络状态

6c)将全部时刻上的网络输出按顺序首尾相接得到训练集视频x_k的一维特征向量vt_k；

6d)将一维特征向量vt_k输入到soft-max分类器，得到时域分类网络上训练集视频x_k属于不同视频类别的概率：

pt_k＝{pt_k(1),pt_k(2),...pt_k(m),...pt_k(M)}，

其中pt_k(m)为时域分类网络上训练集视频x_k属于第m类视频的概率；

6e)计算训练集视频x_k的标签y_k和pt_k之间的交叉熵lt_k：

lt_k＝-log(pt_k(y_k))；

6f)求时域分类网络训练集X上交叉熵的均值lt：

6g)根据交叉熵的均值lt，使用反向传播算法更新时域分类网络参数，得到训练后的时域分类网络；

7)使用训练后的空域分类网络和时域分类网络对测试视频x_test进行分类：

7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频x_test属于不同视频类别的概率：

p^s＝{p^s(1),p^s(2),...,p^s(m),...p^s(M)}，

其中p^s(m)是空域分类网络上测试视频x_test属于第m类视频的概率，m＝1,2,...,M,M为视频类别数；

7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频x_test属于不同视频类别的概率：

p^t＝{p^t(1),p^t(2),...,p^t(m),...,p^t(M)}，

其中p^t(m)是时域分类网络上测试视频x_test属于第m类视频的概率；

7c)根据7a)和7b)的结果，计算测试视频x_test属于第m类视频的概率：

p(m)＝wp^s(m)+(1-w)p^t(m)，

其中w是空域分类网络的分类结果所占的权重；

7d)将p(m)中最大值所对应的视频类别，作为测试视频x_test的分类结果。

2.根据权利要求1所述的方法，其特征在于，其中步骤4a)中计算全部视频帧的视觉注意力特征按如下步骤进行：

4a1)提取全部视频帧自下而上的视觉注意力特征的维度为h*w，其中h为全部视频帧的高，w为全部视频帧的宽；

4a2)提取全部视频帧自上而下的视觉注意力特征的维度为h*w；

4a3)将自下而上的视觉注意力特征和自上而下的视觉注意力特征进行拼接，得到全部视频帧的视觉注意力特征的维度为h*w*2。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810475657.1/1.html，转载请声明来源钻瓜专利网。

上一篇：基于自然语言表达的目标检测方法、电子设备、存储介质
下一篇：基于生成对抗网络的人群计数方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于空域分类网络和时域分类网络融合的视频分类方法有效

专利文献下载