[发明专利]一种基于动作连贯性的弱监督时序动作定位方法有效
申请号: | 201910575033.1 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110348345B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 王乐;翟元浩;刘子熠 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动作 连贯性 监督 时序 定位 方法 | ||
1.一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,包括以下步骤:
步骤1,将待处理视频分为多个不重合片段,获取每个片段的RGB特征和光流特征;
步骤2,对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理,获得RGB动作片段和光流动作片段;所述动作片段回归处理包括:对于待处理视频的每个时间点,枚举不同预设长度的假想的动作片段,对于不同长度的动作片段使用预定的回归神经网络进行回归,回归神经网络使用动作连贯性损失函数进行训练,并获得动作片段;
步骤3,通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度;使用非最大值抑制过滤掉重合度超过阈值的动作片段;
步骤4,回归神经网络训练结束后;经过一个无参数的融合模块,筛选融合RGB动作片段和光流动作片段,得到最后的定位结果;
其中,步骤2中,动作片段回归处理具体包括:对于片段长度为P的动作片段,使用下式进行回归:
式中,xs为开始边界的序号,xe为结束边界的序号,为在开始边界位置回归的结果,为在结束边界位置回归的结果;
步骤2和步骤3中,动作连贯性损失函数由两部分组成;
一部分用来表征动作片段特征与其上下文特征的余弦相似度;假设该动作片段与其上下文的特征分别用如下符号表示其中,F(u)为视频在时间点为u的特征,这部分的计算表达式为:
另一部分用分类置信度来表征:
其中,S(k,u)表示在类别k下,时间点u的分类置信度;对于动作片段[xs,xe],将其扩充到[Xs,Xe],其中作为该片段的上下文信息;
动作连贯性损失函数的表达式为:
L=αLc+(1-α)(La-1)
其中,α为超参数,取值为0<α<1。
2.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤1具体包括:将待处理视频分为多个不重合片段;对每个片段平均取样,使用卷积神经网络提取取样帧的特征,将提取获得的特征作为该片段的表示;其中,分别对RGB和光流提取特征。
3.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤4中,回归网络训练结束后,对于RGB和光流分别得到的动作片段,筛选融合步骤具体包括:
由RGB和光流得到的动作片段分别为其中,Nr和Nf分别为RGB和光流动作片段数;
对于每个RGB的动作片段,计算其与光流片段的最大IoU,计算公式为:
最终的筛选融合结果,为所有光流动作片段和具有I(pr,j)小于预设阈值的RGB动作片段的组合。
4.根据权利要求3所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,最终的筛选融合结果,为所有光流动作片段和具有I(pr,j)0.4的RGB动作片段的组合。
5.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,α设置为0.6。
6.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,步骤2中,将步骤1得到的RGB特征Rs输入到多个回归网络;每个回归网络由3层1D卷积神经网络构成,并指定了一个片段长度P;
回归网络的最后一层有2个大小为1的卷积核,其输出分别回归开始边界和结束边界。
7.根据权利要求6所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,回归网络的前两层由空洞卷积网络构成。
8.根据权利要求7所述的一种基于动作连贯性的弱监督时序动作定位方法,其特征在于,回归网络的前两层的空洞卷积的空洞设置为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910575033.1/1.html,转载请声明来源钻瓜专利网。