[发明专利]动作片段检测方法、模型训练方法及装置有效
申请号: | 202110488341.8 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113033500B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 沈复民;徐行;任燚梵;邵杰;申恒涛 | 申请(专利权)人: | 成都考拉悠然科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张欣欣 |
地址: | 610000 四川省成都市高新区中国(四川)自由贸易试验*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动作 片段 检测 方法 模型 训练 装置 | ||
1.一种动作片段检测方法,其特征在于,所述方法包括:
获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图;
将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图;
利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果;
根据每个所述候选视频段的预测结果,从所有候选视频段中确定动作片段;
所述动作检测模型包括多个多尺度动态网络;
所述将所述视频特征和所述视频段特征图输入动作检测模型,利用所述动作检测模型进行多尺度特征提取,得到所有候选视频段的融合特征图的步骤,包括:
将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图;
将所述视频特征和第N-1个所述多尺度动态网络的输出作为第N个所述多尺度动态网络的输入,利用所述多尺度动态网络进行多尺度特征提取;
将最后一个所述多尺度动态网络的输出作为所述融合特征图。
2.如权利要求1所述的方法,其特征在于,所述多尺度动态网络包括多个多尺度动态单元;
所述将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取,得到所有候选视频段的初步特征图的步骤,包括:
将所述视频特征和所述视频段特征图输入每个所述多尺度动态单元;
利用多尺度动态单元从目标尺度进行特征提取,得到目标尺度的特征表达,其中,一个多尺度动态单元对应一个尺度;
获得所述多个多尺度动态单元输出的多个尺度的特征表达;
将所述多个尺度的特征表达进行聚合,得到所有候选视频段的特征信息;
对所述特征信息进行1×1卷积操作后,与所述视频段特征图进行叠加,得到所述初步特征图。
3.如权利要求2所述的方法,其特征在于,所述利用多尺度动态单元从目标尺度进行特征提取,得到目标尺度的特征表达的步骤,包括:
对所述视频段特征图进行滑窗操作,得到取样特征图;
对所述视频特征进行平均池化,得到所述待检测视频的全局特征;
利用1×1卷积对所述全局特征进行卷积操作以减少通道数,得到所述待检测视频的全局信息;
将所述全局信息和所述视频段特征图进行融合,得到中间特征图;
利用所述中间特征图生成每个候选视频段的动态卷积核;
利用所述动态卷积核对所述取样特征图进行卷积操作,得到目标尺度的特征表达。
4.如权利要求1所述的方法,其特征在于,所述动作检测模型还包括卷积层;
所述利用所述动作检测模型对所述融合特征图进行预测,得到每个所述候选视频段的预测结果的步骤,包括:
利用所述卷积层对所述融合特征图进行卷积操作,得到每个所述候选视频段的预测结果。
5.如权利要求1所述的方法,其特征在于,所述候选视频段是对所述待检测视频进行枚举得到的,所述候选视频段包括开始时间和结束时间;
所述根据每个所述候选视频段的预测结果,从所有候选视频段中确定动作片段的步骤,包括:
根据每个所述候选视频段的预测结果,计算每个所述候选视频段的评判分数;
根据每个所述候选视频段的评判分数,获得包含动作的候选视频段;
对包含动作的候选视频段进行分类,得到包含动作的候选视频段的动作类别;
获得所述动作片段,其中,所述动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都考拉悠然科技有限公司,未经成都考拉悠然科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110488341.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多工况电偶腐蚀试验装置
- 下一篇:一种用于区域经济市场调研的模型