[发明专利]基于自注意力网络的时序行为捕捉框生成方法及装置有效
申请号: | 201910197423.X | 申请日: | 2019-03-15 |
公开(公告)号: | CN109934845B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 郭大山;姜文浩;刘威 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06T7/20 | 分类号: | G06T7/20 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 网络 时序 行为 捕捉 生成 方法 装置 | ||
本发明公开了一种基于自注意力网络的时序行为捕捉框生成方法及装置,所述方法包括:获取目标视频;根据所述目标视频得到输入特征矩阵,并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列;所述第一自注意力模型由多个分组串联得到,每个分组中包括至少一个自注意力单元,各个分组对应的目标特征矩阵在时序上形成了特征偏移;根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集;提取各个候选捕捉框之间的相对位置信息,并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集。本发明分设两个自注意力模型得到了目标捕捉框集,提升目标捕捉框集的生成精度。
技术领域
本发明涉及机器学习领域,尤其涉及基于自注意力网络的时序行为捕捉框生成方法及装置。
背景技术
现实生活中的视频常常包含一系列连续复杂动作和相关事件,基于对视频中时序行为的研究需要,时序行为捕捉框生成任务也成为研究热点,但是如何对视频生成高质量的捕捉框,并且使得捕捉框能够以较高的召回率和较高的交并比覆盖该视频中真实存在的动作实例,却成为了研究难点。现有技术中为了得到时序行为捕捉框,可以构建时序行为学习任务,具体可以使用递归神经网络(recurrent neural network,RNN)和卷积神经神经网络(convolution neural network,CNN)来进行学习。其中递归神经网络通过递归操作对序列上下文信息建模,然而递归操作非常耗时,而卷积神经神经网络可以并行化实现加速,然而其通过叠加多个卷积层所抓取的上下文信息范围受限。
发明内容
本发明提供了一种基于自注意力网络的时序行为捕捉框生成方法及装置。
一方面,本发明提供了一种基于自注意力网络的时序行为捕捉框生成方法,所述方法包括:
获取目标视频;
根据所述目标视频得到输入特征矩阵,并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列;所述第一自注意力模型由多个分组串联得到,每个分组中包括至少一个自注意力单元,各个分组对应的目标特征矩阵在时序上形成了特征偏移;
根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集,所述候选捕捉框集包括至少一个候选捕捉框;
提取各个候选捕捉框之间的相对位置信息,并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集,所述目标捕捉框集至少包括一个捕捉框。
另一方面提供了一种基于自注意力网络的时序行为捕捉框生成装置,所述装置包括:
目标视频获取模块,用于获取目标视频;
第一自注意力模块,用于根据所述目标视频得到输入特征矩阵,并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列;所述第一自注意力模型由多个分组串联得到,每个分组中包括至少一个自注意力单元,各个分组对应的目标特征矩阵在时序上形成了特征偏移;
候选捕捉框生成模块,用于根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集,所述候选捕捉框集包括至少一个候选捕捉框;
第二自注意力模块,用于提取各个候选捕捉框之间的相对位置信息,并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集,所述目标捕捉框集至少包括一个捕捉框。
另一方面提供了一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的一种一种基于自注意力网络的时序行为捕捉框生成方法。
另一方面提供了一种终端设备,所述终端设备包括上述的一种基于自注意力网络的时序行为捕捉框生成装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910197423.X/2.html,转载请声明来源钻瓜专利网。