[发明专利]一种基于双向时序图的视频描述生成方法和装置在审
申请号: | 201910439203.3 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110210358A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 彭宇新;张俊超 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时序 局部特征 视频描述 视频帧 构建 方法和装置 视频对象 建模 聚合 自然语言描述 对视频对象 注意力机制 对视频帧 对象检测 对象提取 解码模型 聚合模型 聚合特征 时序变化 视频时空 视频特征 视频提取 有效表达 层次化 能力强 细粒度 自适应 准确率 正向 检测 | ||
1.一种基于双向时序图的视频描述生成方法,包括以下步骤:
(1)对视频提取视频帧并进行对象检测,每个视频帧检测得到若干个对象;
(2)对检测得到的对象构建双向时序图,计算对象的时序轨迹;
(3)对视频帧和对象区域提取局部特征,并构建特征聚合模型,利用局部特征和对象的时序轨迹学习聚合特征;
(4)利用注意力机制分别对多个视频帧和多个对象的聚合特征进行融合,并构建解码模型生成自然语言描述。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)对每个视频提取T个视频帧,对每个视频帧进行对象检测,取检测得分最高的N个对象作为对象检测结果。
3.如权利要求1所述的方法,其特征在于,所述步骤(2)中双向时序图建立在不同视频帧之间,图的节点表示视频对象,图的边表示不同视频帧对象之间的相似度。
4.如权利要求3所述的方法,其特征在于,根据对象的外观和空间区域信息计算所述相似度:
其中s(i,j)表示第i个对象和第j个对象之间的相似度,sapp、siou、sarea分别表示两个对象的外观相似度、空间区域交并比和面积比,计算公式如下:
其中i、j、p、q表示对象的编号,x表示对象特征,L2表示两个对象特征的欧氏距离,area表示对象的空间区域,A表示对象空间区域的面积。
5.如权利要求1所述的方法,其特征在于,所述步骤(2)中双向时序图包含两个子图,即沿时序方向建立的正向图和沿逆时序方向建立的反向图;正向图以起始帧为参考帧,计算该帧对象和其他视频帧对象的相似度;反向图以结束帧为参考帧,计算该帧对象和其他视频帧对象的相似度;根据双向时序图,利用最近邻方法计算所有视频帧中与参考帧对象属于同一对象实例的对象,将其按照时序顺序连接起来得到对象的时序轨迹;所述最近邻方法选取相似度最大的边的两个节点作为同一对象实例。
6.如权利要求1所述的方法,其特征在于,所述步骤(3)对视频帧和对象提取卷积神经网络的卷积层特征图,以此作为局部特征;并利用循环神经网络构建特征聚合模型,分别对视频帧和对象的局部特征进行聚合,学习得到视频帧和对象的聚合特征;聚合特征的计算公式如下:
其中x∈RH×W×D表示局部特征,H、W、D分别表示特征图的高、宽、通道数,ck表示第k个聚类中心,a(h,w,k)表示局部特征x(h,w)到聚类中心ck的软分配系数。
7.如权利要求1所述的方法,其特征在于,所述步骤(4)中构建层次化注意力机制,包含时序注意力和对象注意力,首先利用时序注意力为每个视频帧计算注意力权重,对同一对象实例在多个视频帧中的聚合特征进行加权融合,然后利用对象注意力机制为每个对象实例计算注意力权重,对多个对象实例的聚合特征进行融合。
8.如权利要求7所述的方法,其特征在于,所述时序注意力权重的计算公式如下:
其中Watt、Uatt表示权重参数,batt表示偏置参数,hl-1表示解码模型在第l-1时间步的隐状态,vlt表示第t个视频帧对应的聚合特征。βlt表示学习到的时序注意力权重。
9.如权利要求7所述的方法,其特征在于,所述对象注意力权重的计算公式如下:
其中表示权重参数,表示偏置参数,hl-1表示解码模型在第l-1时间步的隐状态,表示第i个对象实例的聚合特征,表示学习到的对象注意力权重。
10.一种基于双向时序图的视频描述生成装置,其特征在于,包括:
视频帧提取模块,负责对视频提取视频帧;
对象检测模块,负责对提取的视频帧进行对象检测,每个视频帧检测得到若干个对象;
双向时序图构建模块,连接所述对象检测模块,负责对检测得到的对象构建双向时序图,计算对象的时序轨迹;
特征聚合模块,连接所述视频帧提取模块、所述对象检测模块和所述双向时序图构建模块,负责对视频帧和对象区域提取局部特征,并构建特征聚合模型,利用局部特征和对象的时序轨迹学习聚合特征;
特征融合模块,连接所述特征聚合模块,负责利用注意力机制分别对多个视频帧和多个对象的聚合特征进行融合;
解码模块,连接所述特征融合模块,负责构建解码模型,根据融合后的特征生成自然语言描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910439203.3/1.html,转载请声明来源钻瓜专利网。