[发明专利]基于空域分类网络和时域分类网络融合的视频分类方法有效
申请号: | 201810475657.1 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108764084B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 韩冰;褚福跃;王平;高新波;连慧芳;张萌 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 空域 分类 网络 时域 融合 视频 方法 | ||
1.基于空域分类网络和时域分类网络融合的视频分类方法,包括:
1)获取训练集和测试视频:
从已标记类别的视频数据库中任取N个视频组成训练集:X={x1,x2,...,xk,...,xN},其中xk是第k个训练集视频,xk的标签为yk,k=1,2,...,N;
将剩余视频组成测试集,从测试集中取一个视频作为测试视频xtest;
2)提取训练集X中训练集视频xk的全部视频帧其中,τ=1,2,...,T,T为视频xk中所包含视频帧的数目,以训练集视频xk的标签yk作为全部视频帧的标签;
3)以全部视频帧及其标签yk作为训练数据,对卷积神经网络进行训练,得到训练好的卷积神经网络Z;
4)提取全部视频帧的特征:
4a)计算全部视频帧的视觉注意力特征
4b)使用步骤3)训练好的卷积神经网络Z对视觉注意力特征进行提取,得到空域特征矩阵
4c)使用步骤3)训练好的卷积神经网络Z对全部视频帧进行特征提取,得到时域特征矩阵
5)利用空域特征矩阵对空域分类网络进行训练;按如下步骤进行:
5a)将空域特征矩阵转换为一维特征向量
5b)将一维特征向量输入到soft-max分类器,计算空域分类网络上全部视频帧属于不同视频类别的概率:
其中为空域分类网络上全部视频帧属于第m类视频的概率;
5c)根据训练集视频xk中全部视频帧属于不同视频类别的概率计算空域分类网络上训练集视频xk属于不同视频类别的概率:
psk={psk(1),psk(2),...psk(m),...psk(M)},
其中psk(m)为空域分类网络上训练集视频xk属于第m类视频的概率,其计算方法为:
5d)计算训练集视频xk的标签yk和psk之间的交叉熵lsk:
lsk=-log(psk(yk));
5e)求空域分类网络在训练集X上交叉熵的均值:
5f)根据交叉熵的均值ls,使用反向传播算法更新空域分类网络参数,得到训练后的空域分类网络;
6)利用时域特征矩阵对时域分类网络进行训练;按如下步骤进行:
6a)将时域特征矩阵输入到时域分类网络中的长短时记忆网络单元中,得到时刻τ=1时的网络输出和网络状态
6b)将时域特征矩阵和网络状态共同输入到时域分类网络中的长短时记忆网络单元中,得到网络输出和网络状态
6c)将全部时刻上的网络输出按顺序首尾相接得到训练集视频xk的一维特征向量vtk;
6d)将一维特征向量vtk输入到soft-max分类器,得到时域分类网络上训练集视频xk属于不同视频类别的概率:
ptk={ptk(1),ptk(2),...ptk(m),...ptk(M)},
其中ptk(m)为时域分类网络上训练集视频xk属于第m类视频的概率;
6e)计算训练集视频xk的标签yk和ptk之间的交叉熵ltk:
ltk=-log(ptk(yk));
6f)求时域分类网络训练集X上交叉熵的均值lt:
6g)根据交叉熵的均值lt,使用反向传播算法更新时域分类网络参数,得到训练后的时域分类网络;
7)使用训练后的空域分类网络和时域分类网络对测试视频xtest进行分类:
7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频xtest属于不同视频类别的概率:
ps={ps(1),ps(2),...,ps(m),...ps(M)},
其中ps(m)是空域分类网络上测试视频xtest属于第m类视频的概率,m=1,2,...,M,M为视频类别数;
7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频xtest属于不同视频类别的概率:
pt={pt(1),pt(2),...,pt(m),...,pt(M)},
其中pt(m)是时域分类网络上测试视频xtest属于第m类视频的概率;
7c)根据7a)和7b)的结果,计算测试视频xtest属于第m类视频的概率:
p(m)=wps(m)+(1-w)pt(m),
其中w是空域分类网络的分类结果所占的权重;
7d)将p(m)中最大值所对应的视频类别,作为测试视频xtest的分类结果。
2.根据权利要求1所述的方法,其特征在于,其中步骤4a)中计算全部视频帧的视觉注意力特征按如下步骤进行:
4a1)提取全部视频帧自下而上的视觉注意力特征的维度为h*w,其中h为全部视频帧的高,w为全部视频帧的宽;
4a2)提取全部视频帧自上而下的视觉注意力特征的维度为h*w;
4a3)将自下而上的视觉注意力特征和自上而下的视觉注意力特征进行拼接,得到全部视频帧的视觉注意力特征的维度为h*w*2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810475657.1/1.html,转载请声明来源钻瓜专利网。