[发明专利]一种基于动作连贯性的弱监督时序动作定位方法有效
申请号: | 201910575033.1 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110348345B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 王乐;翟元浩;刘子熠 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动作 连贯性 监督 时序 定位 方法 | ||
本发明属于机器视觉领域,公开了一种基于动作连贯性的弱监督时序动作定位方法,包括:将视频分为RGB帧和光流分别处理;对于每个动作模态,首先针对视频上的每个时间点,提出长度不同的假设的动作片段,然后根据视频的动作连贯性和分类准确率使用卷积神经网络回归动作片段。对于两个动作模态得到的不同动作片段,通过一个特性的模块进行结合,筛选出最终的动作定位结果。本发明在给定视频类别的情况下,可定位视频中属于该类别的动作片段。
技术领域
本发明属于计算机视觉技术领域,涉及弱监督时序动作定位方法,特别涉及一种基于动作连贯性的弱监督时序动作定位方法。
背景技术
时序动作定位是一项重要的计算机视觉问题,它在抽象的视频理解任务,如事件检测、视频总结和视频问题回答等方向有着非常重要的应用。
目前大多数的时序动作定位方法需要精确的时间标注,需要消耗大量人力物力;同时,可能因动作的边界的模糊性使得该时间标注不准确。另外,目前的时序动作定位方法中,未将RGB和光流分别处理,忽略了RGB和光流本身的特征;最终片段得分仅由分类得分得出,忽视了RGB和光流本身的区别,且对分类神经网络依赖性大,很难得到最优结果。
综上,亟需一种新的弱监督时序动作定位方法。
发明内容
本发明的目的在于提供一种基于动作连贯性的弱监督时序动作定位方法,以解决上述存在的一个或多个技术问题。本发明中,将视频分为RGB和光流分别处理,分别提出可能的动作片段,然后筛选融合来提出最后的结果,能够得出较优的定位结果。
为达到上述目的,本发明采用以下技术方案:
一种基于动作连贯性的弱监督时序动作定位方法,包括以下步骤:
步骤1,将待处理视频分为多个不重合片段,获取每个片段的RGB特征和光流特征;
步骤2,对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理,获得RGB动作片段和光流动作片段;所述动作片段回归处理包括:对于待处理视频的每个时间点,枚举不同预设长度的假想的动作片段,对于不同长度的动作片段使用预定的回归神经网络进行回归,回归神经网络使用动作连贯性损失函数进行训练,并获得动作片段;
步骤3,通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度;使用非最大值抑制过滤掉重合度超过阈值的动作片段;
步骤4,回归神经网络训练结束后;经过一个无参数的融合模块,筛选融合RGB动作片段和光流动作片段,得到最后的定位结果。
本发明的进一步改进在于,步骤1具体包括:将待处理视频分为多个不重合片段;对每个片段平均取样,使用卷积神经网络提取取样帧的特征,将提取获得的特征作为该片段的表示;其中,分别对RGB和光流提取特征。
本发明的进一步改进在于,步骤2中,动作片段回归处理具体包括:对于假想长度为P的动作片段,使用下式进行回归:
式中,xs为开始边界的序号,xe为结束边界的序号,为在开始边界位置回归的结果,为在结束边界位置回归的结果,P为动作片段长度。
本发明的进一步改进在于,步骤3中,动作连贯性损失函数由两部分组成;
一部分用来表征动作片段特征与其上下文特征的余弦相似度;假设该动作片段与其上下文的特征分别用如下符号表示其中F(u)为视频在时间点为u特征表示,这部分的计算表达式为:
另一部分用分类置信度来表征:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910575033.1/2.html,转载请声明来源钻瓜专利网。