[发明专利]一种基于关系建模的弱监督视频动作定位模型的训练方法有效
申请号: | 202110186978.1 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112883868B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 张天柱;张勇东;占永昆;吴枫 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/77;G06V10/764;G06V10/774;G06V10/80 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关系 建模 监督 视频 动作 定位 模型 训练 方法 | ||
1.一种基于关系建模的弱监督视频动作定位模型的训练方法,包括:
构建初始动作定位模型,其中,所述初始动作定位模型包括:特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块;
通过所述特征提取模块对样本视频进行特征提取,输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征,其中,所述第一初始视频特征和所述第二初始视频特征分别包括多个视频片段特征;
通过所述视频内关系更新模块对所述第一初始视频特征和所述第二初始视频特征中的视频片段特征分别进行处理,以更新所述第一初始视频特征和所述第二初始视频特征,得到第一视频内关系特征和第二视频内关系特征;通过所述跨视频关系更新模块对所述第一视频内关系特征和所述第二视频内关系特征进行处理,得到跨视频融合特征,根据所述跨视频融合特征和所述第一初始视频特征生成第一跨视频特征,根据所述跨视频融合特征和所述第二初始视频特征生成第二跨视频特征;
根据所述第一视频内关系特征和所述第一跨视频特征,以及/或者所述第二视频内关系特征和所述第二跨视频特征,输入所述分类与定位模块,以训练所述初始动作定位模型,得到训练后的动作定位模型;
其中,所述通过所述跨视频关系更新模块对所述第一视频内关系特征和所述第二视频内关系特征进行处理,得到跨视频融合特征包括:
分别对所述第一视频内关系特征和所述第二视频内关系特征标准化处理,得到标准化后的所述第一视频内关系特征和所述第二视频内关系特征;
将标准化后的所述第一视频内关系特征和所述第二视频内关系特征通过点积的方法计算,得到所述跨视频融合特征,其中,所述跨视频融合特征为所述第一视频内关系特征和所述第二视频内关系特征的相似度矩阵。
2.根据权利要求1所述的方法,其中,所述通过所述特征提取模块对样本视频进行特征提取,输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征包括:
通过所述特征提取模块对样本视频进行特征提取,得到初始视频特征集;
从所述初始视频特征集中随机采样,输出所述第一初始视频特征和所述第二初始视频特征。
3.根据权利要求1所述的方法,其中,所述通过所述视频内关系更新模块对所述第一初始视频特征和所述第二初始视频特征中的视频片段特征分别进行处理,以更新所述第一初始视频特征和所述第二初始视频特征,得到第一视频内关系特征和第二视频内关系特征包括:
分别对所述第一初始视频特征和所述第二初始视频特征进行降维处理,得到降维后的所述第一初始视频特征和所述第二初始视频特征;
通过图卷积网络对降维后的所述第一初始视频特征和所述第二初始视频特征进行更新,得到所述第一视频内关系特征和所述第二视频内关系特征。
4.根据权利要求1所述的方法,其中,所述根据所述跨视频融合特征和所述第一初始视频特征生成第一跨视频特征,根据所述跨视频融合特征和所述第二初始视频特征生成第二跨视频特征包括:
通过softmax函数对所述跨视频融合特征进行计算,分别得到所述第一初始视频特征相对于所述第二初始视频特征的第一跨视频注意力和所述第二初始视频特征相对于所述第一初始视频特征的第二跨视频注意力;
通过加权求和的方法对所述第一初始视频特征和所述第一跨视频注意力进行计算,得到所述第一跨视频特征;以及
通过加权求和的方法对所述第二初始视频特征和所述第二跨视频注意力进行计算,得到所述第二跨视频特征。
5.根据权利要求1所述的方法,其中,所述根据所述第一视频内关系特征和所述第一跨视频特征,以及/或者所述第二视频内关系特征和所述第二跨视频特征,输入所述分类与定位模块,以训练所述初始动作定位模型,得到训练后的动作定位模型包括:
将所述第一视频内关系特征和所述第一跨视频特征,以及/或者所述第二视频内关系特征和所述第二跨视频特征输入所述分类与定位模块,生成所述样本视频的前景特征和背景特征;
根据所述前景特征和所述背景特征计算所述样本视频的情景分类损失和背景分类损失;
将所述情景分类损失和背景分类损失输入损失函数,得到损失结果;
根据所述损失结果训练所述初始动作定位模型,得到训练后的所述动作定位模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110186978.1/1.html,转载请声明来源钻瓜专利网。