[发明专利]融合局部目标特征与全局特征的视频摘要生成方法有效
申请号: | 202110444672.1 | 申请日: | 2021-04-24 |
公开(公告)号: | CN113139468B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 杜友田;张光勋 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/82;G06F16/738;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 局部 目标 特征 全局 视频 摘要 生成 方法 | ||
1.一种融合局部目标特征与全局特征的视频摘要生成方法,其特征在于,包括:
步骤1,提取视频的局部目标特征,所述局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征;
步骤2,利用注意力机制构建局部目标特征融合网络,输入所述局部目标特征得到融合局部目标特征;
步骤3,利用编码-解码框架中的编码器从视频中抽取得到视频的全局特征,并将所述融合局部特征引入编码-解码框架,融合视频的全局特征信息与局部目标特征信息,获得表现力更加丰富的表征向量,再根据该表征向量解码出相应的摘要语句;
所述步骤1中,对原始视频数据,根据视频场景进行分割与采样,获得图片集合;在相同场景下,使用经过预训练的目标检测网络对图片集合中的每张图片进行目标定位与特征提取;根据目标特征的相似度,利用聚类算法聚合相同的目标,进而构建目标的时序关系;消除视频中出现时间短于设定值的目标和噪声,从而获得视频中主要目标的特征;通过使用最大池化网络和自编码解码器,对齐目标特征,获得视频中定长的局部目标特征;
通过每隔3帧提取1帧的方法,对视频进行下采样,得到图片集合P,所述预训练的目标检测网络为经过数据集MS-COCO预训练过的目标检测模型Faster R-CNN网络,对每一个概率大于50%的目标抽取其输出特征foutput和时序关联构造特征fconnect,定义目标相似度系数KSimilarity衡量目标间的相似程度,并利用K-means的思想为相同目标构造时序关系;
所述步骤2中,使用乘性注意力机制构建两层的局部目标特征融合网络,得到不同目标不同类别的特征与控制注意力模块的LSTM网络之间的关系,局部目标特征融合网络的构建方法如下:
第一层注意力机制:
针对相同特征间不同目标的关注度差异,生成一个注意力权重系数α,权重系数α由该目标所包含的特征与上一时刻控制注意力模块的LSTM网络的隐藏层状态特征计算得出,计算公式如下:
aim=fm·W·hi-1atten
αim=softmax(waTaim)
式中,aim为产生第i个单词时第m个目标的特征的注意力权重系数,fm为视频中第m个目标的特征,fm=fvisualm或fpositionm或flabelm,fvisualm是第m个目标的视觉特征,fpositionm第m个目标的位置变化特征,flabelm第m个目标的类别标签特征,W为全连接层变换矩阵,其参数通过训练学习获得,hi-1atten为产生第i-1个单词时的控制注意力模块的LSTM网络的隐藏层的状态特征,αim为经过softmax归一化后的注意力权重系数,wa为注意力权重的维度变化矩阵,cip为产生第i个单词时将N个目标通过注意力机制进行特征融合的结果,N为输入的目标的个数;
通过上式计算得到多目标单位在视觉特征上的融合特征civisual,在位置变化轨迹上的融合特征ciposition和在目标类别上的融合特征cilabel;
第二层注意力机制,计算公式如下:
式中,ci为产生第i个单词时,融合了视觉特征、位置变化特征和类别特征的融合局部目标特征,为不同类别融合特征的权重系数,或或为视觉特征注意力权重系数,为位置特征注意力权重系数,为类别标签特征注意力权重系数,为参数由训练学习获得的全连接层变换矩阵,wa为注意力权重的维度变化矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110444672.1/1.html,转载请声明来源钻瓜专利网。