[发明专利]用于视频时空表征学习的三元关系协作模块及建模方法在审

申请号：	202010753532.8	申请日：	2020-07-30
公开（公告）号：	CN111860432A	公开（公告）日：	2020-10-30
发明（设计）人：	石珍生;郑海永	申请（专利权）人：	中国海洋大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	重庆敏创专利代理事务所(普通合伙) 50253	代理人：	陈千
地址：	266102 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于视频时空表征学习三元关系协作模块建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及视频理解与分析技术领域，具体公开了一种用于视频时空表征学习的三元关系协作模块及建模方法，该协作模块通过分层机制设计为三层：聚合层、关系层和协作层，以探索视频中的通道、时序、空间三元关系及其三元协作关系(其中通道和时序为隐式，空间为显式)，融合了内隐线索和外显线索，帮助更好地表征视频以及理解视频中的行为，以显著提升视频行为识别能力；该协作模块仅有三层机制，轻量且灵活，可以被应用到多种三维卷积网络架构中。该建模方法将三元关系协作模块嵌入到三维卷积网络架构中，利用三元关系协作模块发现并学习三维卷积网络中的三元关系协作，融合了内隐线索和外显线索，使视频行为识别效果得到显著提升。

技术领域

本发明涉及视频理解与分析技术领域，尤其涉及一种用于视频时空表征学习的三元关系协作模块及用于视频时空表征学习的三元关系建模方法。

背景技术

世界上万物是相互联系的，本实施例可以将世界雕刻为事物之间相互联系。发现实体及其属性之间关系的能力是本实施例对世界的重要认知能力。考虑一个动作“某物与某物碰撞，两者都停止”，其不同于“将某物和某物相互靠近”的动作，识别“碰撞”和“停止”需要推理视觉内隐依赖和相互作用关系，识别“移动”和“物体”需要利用视觉外显的时序运动信息和空间物体。如此看来，本实施例的大脑在理解这两种视频中动作时，会将认知思维中这两方面需求进行融合，由此本实施例认为这两方面需求分别对应内隐线索和外显线索的关系。

研究实体间关系对于视频中的行为理解与分析是至关重要的。现有的识别视频中行为的关系模型通常通过推理内隐的时序或通道线索(比如依赖和交互关系)来发现并建模关系。同时，很多工作致力于研究并采用视频中视觉外显的时序动作信息和空间物体，比如光流和视觉注意机制，这些工作对于识别视频中人的行为是有效的。然而探索这些视觉外显线索之间的关系是很少被考虑和采用的，同时这些视觉内隐和外显线索关系及其协作关系也往往被忽略。

发明内容

本发明提供一种用于视频时空表征学习的三元关系协作模块及建模方法，解决的技术问题在于：现有识别视频中行为的关系模型很少探索视觉外显线索之间的关系，也往往忽略了视觉内隐和外显线索关系及其协作关系，无法更好地表征视频及理解视频中的行为。

为解决以上技术问题，本发明提供一种用于视频时空表征学习的三元关系协作模块，包括层级设置的聚合层、关系层和协作层；

所述聚合层用于以特征图集合X为输入，输出通道描述子V^θ、时序描述子V^τ和空间描述子至所述关系层，θ、τ、分别表示通道、时序和空间；

所述关系层用于将所述通道描述子V^θ、时序描述子V^τ和空间描述子转变为对应的通道关系Z^θ、时序关系Z^τ和空间关系得到三元关系

所述协作层用于生成所述三元关系之间的三元协作关系Z^ζ。

具体的，所述聚合层对所述特征图集合X分别进行通道聚合、时序聚合、空间聚合，得到所述通道描述子V^θ、时序描述子V^τ和空间描述子

所述特征图集合X的表示式为：

X＝[x₁,x₂,…,x_C]∈R^C×T×H×W (1)

其中，x_c∈R^C×T×H×W(c＝1,2,…,C)表示第c个通道的特征图，C、T、H和W分别表示特征图的通道数、时序深度、高度和宽度；

所述通道聚合具体为：将所述特征图集合X在时空范围内采用池化核T×H×W进行全局平均池化操作；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。