[发明专利]基于自注意力网络的时序行为捕捉框生成方法及装置有效

申请号：	201910197423.X	申请日：	2019-03-15
公开（公告）号：	CN109934845B	公开（公告）日：	2022-11-29
发明（设计）人：	郭大山;姜文浩;刘威	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06T7/20	分类号：	G06T7/20
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;贾允
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力网络时序行为捕捉生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于自注意力网络的时序行为捕捉框生成方法及装置，所述方法包括：获取目标视频；根据所述目标视频得到输入特征矩阵，并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移；根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集；提取各个候选捕捉框之间的相对位置信息，并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集。本发明分设两个自注意力模型得到了目标捕捉框集，提升目标捕捉框集的生成精度。

技术领域

本发明涉及机器学习领域，尤其涉及基于自注意力网络的时序行为捕捉框生成方法及装置。

背景技术

现实生活中的视频常常包含一系列连续复杂动作和相关事件，基于对视频中时序行为的研究需要，时序行为捕捉框生成任务也成为研究热点，但是如何对视频生成高质量的捕捉框，并且使得捕捉框能够以较高的召回率和较高的交并比覆盖该视频中真实存在的动作实例，却成为了研究难点。现有技术中为了得到时序行为捕捉框，可以构建时序行为学习任务，具体可以使用递归神经网络(recurrent neural network,RNN)和卷积神经神经网络(convolution neural network,CNN)来进行学习。其中递归神经网络通过递归操作对序列上下文信息建模，然而递归操作非常耗时，而卷积神经神经网络可以并行化实现加速，然而其通过叠加多个卷积层所抓取的上下文信息范围受限。

发明内容

本发明提供了一种基于自注意力网络的时序行为捕捉框生成方法及装置。

一方面，本发明提供了一种基于自注意力网络的时序行为捕捉框生成方法，所述方法包括：

获取目标视频；

根据所述目标视频得到输入特征矩阵，并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移；

根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集，所述候选捕捉框集包括至少一个候选捕捉框；

提取各个候选捕捉框之间的相对位置信息，并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集，所述目标捕捉框集至少包括一个捕捉框。

另一方面提供了一种基于自注意力网络的时序行为捕捉框生成装置，所述装置包括：

目标视频获取模块，用于获取目标视频；

第一自注意力模块，用于根据所述目标视频得到输入特征矩阵，并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移；

候选捕捉框生成模块，用于根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集，所述候选捕捉框集包括至少一个候选捕捉框；

第二自注意力模块，用于提取各个候选捕捉框之间的相对位置信息，并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集，所述目标捕捉框集至少包括一个捕捉框。