[发明专利]基于自注意力网络的时序行为捕捉框生成方法及装置有效
申请号: | 201910197423.X | 申请日: | 2019-03-15 |
公开(公告)号: | CN109934845B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 郭大山;姜文浩;刘威 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06T7/20 | 分类号: | G06T7/20 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 网络 时序 行为 捕捉 生成 方法 装置 | ||
1.一种基于自注意力网络的时序行为捕捉框生成方法,其特征在于,所述方法包括:
获取目标视频;
根据所述目标视频得到输入特征矩阵,并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列;所述第一自注意力模型由多个分组串联得到,每个分组中包括至少一个自注意力单元,各个分组对应的目标特征矩阵在时序上形成了特征偏移;
根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集,所述候选捕捉框集包括至少一个候选捕捉框;
提取各个候选捕捉框之间的相对位置信息,并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集,所述目标捕捉框集至少包括一个捕捉框。
2.根据权利要求1所述方法,其特征在于,自注意力单元主要执行下述方法:
将输入特征矩阵经过线性变换分别得到第一特征矩阵、第二特征矩阵和第三特征矩阵;
根据所述第一特征矩阵和第二特征矩阵得到所述输入特征矩阵中不同元素之间的依赖关系;
根据所述依赖关系和第三特征矩阵得到输出矩阵。
3.根据权利要求2所述的方法,其特征在于:
第一自注意力模型包括八个自注意力单元,共分为四组,每组包括两个自注意力单元。
4.根据权利要求1所述方法,其特征在于,所述第一自注意力模型通过下述方法进行训练,所述方法包括:
对各个分组中自注意力单元中的第一特征矩阵、第二特征矩阵和第三特征矩阵进行第一线性映射;
对各个分组中自注意力单元的第一特征矩阵进行处理以形成特征偏移;
对各个分组的输出结果进行合并,并对合并结果进行第二线性映射以得到输出结果;
根据所述输出结果得到预测目标,所述预测目标包括动作概率序列、起始点概率序列和结束点概率序列;
根据预设目标函数和所述预测目标训练所述第一自注意力模型。
5.根据权利要求1所述的方法,其特征在于,所述将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集,包括:
计算输入的候选捕捉框集对应的高维向量集,所述高维向量集包含各个候选捕捉框的相对时间位置信息;
根据所述相对时间位置信息得到第一参量和第二参量,所述第一参量和第二参量分别表示相对时间位置信息对于第二特征矩阵和第三特征矩阵的影响;
计算预测目标;
根据所述预测目标得到第一目标捕捉框集。
6.根据权利要求5所述的方法,其特征在于:
将所述第一目标捕捉框集作为目标捕捉框集进行输出。
7.根据权利要求5所述的方法,其特征在于:
预测各个第一目标捕捉框的置信得分;
评估每个第一目标捕捉框与真实标注的捕捉框的交并比值;
根据所述交并比值对第一目标捕捉框进行排序;
根据排序结果得到第二目标捕捉框集;
将所述第二目标捕捉框集作为目标捕捉框集输出。
8.根据权利要求5所述的方法,其特征在于:
定义排序损失函数;
根据所述排序损失函数对基于第一目标捕捉框的置信得分进行排序的排序结果进行评价;
根据评价结果得到第二目标捕捉框集;
将所述第二目标捕捉框集作为目标捕捉框集输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910197423.X/1.html,转载请声明来源钻瓜专利网。