[发明专利]基于时序-空间图的跨模态视频时序动作定位方法及系统有效
申请号: | 202111557734.6 | 申请日: | 2021-12-20 |
公开(公告)号: | CN113963304B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 刘萌;齐孟津;田传发;周迪;郭杰;马玉玲;刘新锋 | 申请(专利权)人: | 山东建筑大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;H04N13/327;H04N13/161 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 赵妍 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 空间 跨模态 视频 动作 定位 方法 系统 | ||
1.基于时序-空间图的跨模态视频时序动作定位方法,其特征在于,包括:
接收视频数据和自然语言查询信息;
基于自然语言查询信息确定自然语言查询特征表示,包括:
依据自然语言查询信息,获取初始自然语言查询特征表示,使用Skip-Thought算法来进行初始自然语言查询特征表示的提取;
利用语义角色标注工具,对自然查询语言描述信息中语义关系进行标注,构成语义角色树;
将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合,得到最终的自然语言查询特征表示;
基于视频数据确定候选视频时序动作片段特征表示,包括:
基于所述视频数据,利用时序和空间图网络提取视频单元的表示,包括:
基于所述视频数据提取视频帧序列,对所述视频帧序列进行划分得到视频单元;
对视频单元采用C3D网络,提取视频单元的全局表示;
针对视频单元中的所有视频帧进行物体特征提取,得到物体表示集合;
基于视频单元内所有物体表示构建时序图和空间图,并进行不同节点间的信息传播,得到时序图强化的视频单元表示和空间图强化的视频单元表示;
构建了一个时序图,其中每一帧的物体表示作为该图的节点信息,所有节点之间连边,为了衡量两个节点间关联程度,定义了边权重,如下:
其中,表示节点a和节点b之间的关联程度,通过上述公式,可以获得时序图的邻接矩阵,P表示视频中所有物体数目,每一个元素反映了时序上不同物体节点之间的关系;之后,采用M层的图卷积网络来建模物体间时序关联关系,上述过程可表述为如下公式:
其中,表示所有节点在第m层图卷积网络的隐含表示,表示第m层图卷积网络的嵌入维度,为待学习参数矩阵,;最后,对时序图网络的输出结果执行最大池化操作,得到最终的时序图强化的视频单元表示;
构建空间图,针对视频单元的第i帧,构建一个子图,;然后,类似于时序图网络,计算每一帧的邻接关系矩阵,K表示单帧内物体数目,,表示视频第i帧内部节点b和节点k之间的关联程度,并对每一帧执行Q层图卷积操作,每q层卷积得到结果为,其中为学习参数,表示第q层卷积维度,为由目标检测网络得到的物体表示矩阵,D表示物体表示维度;最终,每一帧空间图卷积网络输出经过最大池化,得到每一帧的表示,这些表示经过平均池化得到空间图强化的视频单元表示;
将视频单元的全局表示、时序图强化的视频单元表示以及空间图强化的视频单元表示进行融合,得到最终的视频单元表示;
根据二维时序矩阵构建视频时序动作片段候选集,并基于最终的视频单元表示得到候选视频时序动作片段的特征表示,包括:
依据最终的视频单元表示构建二维时序矩阵,矩阵中每一个元素表示一个视频时序动作片段,所述视频时序动作片段是由起始和结束区间内的视频单元组成的;
将起始和结束区间内的视频单元表示进行最大池化,得到候选视频时序动作片段的初始表示;
依据二维时序表示矩阵,采用膨胀卷积神经网络对每个候选视频时序动作片段的初始表示进行增强,得到候选视频时序动作片段特征表示;
基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性,具体为:
将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联,输入一个定位回归模型,得到二维时序偏移量预测结果;
将候选视频时序动作片段表示与自然语言查询表示进行串联,而后输入多层感知机模型,得到相关性分数值;
通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。
2.如权利要求1所述的基于时序-空间图的跨模态视频时序动作定位方法,其特征在于,所述基于自然语言查询信息确定自然语言查询特征表示,还包括:
根据语义角色树叶子节点的名词表示,得到中间节点的动词表示;
根据语义角色树中间节点的动词表示,得到根节点的自然语言查询信息表示。
3.如权利要求1所述的基于时序-空间图的跨模态视频时序动作定位方法,其特征在于,所述语义角色树的根节点为自然语言查询信息,叶子节点为自然语言查询信息中的名词信息,中间节点为自然语言查询信息中的动词信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111557734.6/1.html,转载请声明来源钻瓜专利网。