[发明专利]一种基于时域语义特征的弱监督时序动作检测方法在审
申请号: | 202110262515.9 | 申请日: | 2021-03-10 |
公开(公告)号: | CN113283282A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 孔德慧;许梦文;王少帆;李敬华;王立春 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时域 语义 特征 监督 时序 动作 检测 方法 | ||
一种基于时域语义特征的弱监督时序动作检测方法属于计算机视觉视频领域,弱监督时序动作检测任务是在仅依靠视频级别标签的情况下,对未修剪的长视频中的每一段动作进行时序上的定位和分类。目前的方法还是将时序动作检测任务视为动作识别的变体任务,他们着重在模型的特征提取、提名生成、分类器训练等方面做研究,却忽视了该任务视频本身的时域语义特征。本发明首先归纳了长视频时域语义特征:动作片段在时序上的稀疏性、相邻片段之间的语义特征具有相似性而距离较远的片段间语义特征具有差异性等,并基于此设计一种新的网络模型来提升视频分类和时序定位的精度。本发明性能超过了目前的先进方法。
技术领域
本发明属于计算机视觉视频理解技术领域,具体是弱监督时序动作检测 方法。
背景技术
视频理解是计算机视觉领域的一项十分重要的任务。近年来随着人工智 能领域的发展,涌现出众多视频理解的方法和技术,目前主流的视频理解任 务可以分为视频动作识别和视频时序动作检测两种。其中,动作识别是对预 先分割好的短视频进行行为分类,训练数据的视频只包含一个动作。然而现 实中的视频通常是未分割的长视频,而且包含多尺度、多类别动作片段和无 关背景片段,比如监控视频、比赛视频等。针对这种长视频进行分析和理解, 不仅需要对动作分类,还要对每一段动作进行时间维度上的定位。时序动作检测任务就是输入一段未分割的视频,输出该视频所包含的动作类别,并且 定位所包含动作的开始和结束时间。全监督时序动作检测需要视频中每一帧 的标注信息,需要大量的人力物力,而且标注的标准也会受到个人的主观影 响。所以目前大量研究均基于弱监督学习框架,即视频只含有动作类别的标 注,没有时间的标注信息。这将大大减小视频分析成本,提高视频分析的安 全性和可靠性,所以弱监督时序动作检测是一个研究热点。
对于一个给定的视频,希望预测一组动作实例{cj,sj,ej,qj},其中cj表示预 测的动作类,sj,ej表示实例的开始时间和结束时间,qj表示实例的置信度得分。 所以时序动作检测任务是包含动作分类和动作时序定位的综合任务,难度远 大于动作识别任务。主要原因是由于未分割长视频本身的复杂性。未分割的 长视频比如监控视频,整体时间跨度大,真实动作占有时间短,而且由于光 照原因,相同动作不同视频的纹理特征相差较大,动作片段与相邻的背景片 段很相似,难以精确定位动作时间。这些特点给时序动作检测增加了独有的 复杂性和难度。而弱监督时序动作检测相比于全监督时序动作检测缺少了动 作时间的标注信息,标签数据提供的信息太少,不能直接有效地训练网络模 型,这使得动作片段与相邻的背景片段更加难以区分。
弱监督时序动作检测通常依靠分类器来实现,一般可分为从局部到全局 和从全局到局部的计算过程。从局部到全局的方法最先发展,该方法将视频 分成小片段,先分类小片段的类别,再将小片段的类别分数融合为视频类别 分数,最后依据视频的类别回溯到片段分数进行定位操作。从全局到局部的 方法把整个视频的特征融合在一起,直接对视频分类,定位时再使用视频分 类器对片段特征分类,根据分类分数进行定位。最近基于注意力机制、背景 类建模的方法实现最新性能。这类方法在数据集标注信息不全的情况下也能够定位动作,但是由于该任务本身固有的特点,标签提供的信息太少,视频 动作片段与相邻的背景片段特征高度相似,单纯的注意力机制得到的结果无 法保证其准确性性,更难以做到精确时序定位。总的来讲,目前的方法还是 将时序动作检测任务视为动作识别的变体任务,他们着重在模型的特征提取、 提名生成、分类器训练等方面做研究,却忽视了该任务视频本身的时域语义 特征,比如长视频中动作的占有时间很少即动作片段在时序上具有稀疏性、 视频相邻帧之间在语义特征空间上具有很大的相关性等等。
发明内容
本发明针对弱监督学习框架下的少标签数据,如何进行表征学习,或者 如何从数据本身出发设计有效的辅助任务问题,归纳了基于长视频时域语义 特征:动作片段在时序上的稀疏性、相邻片段之间的语义特征具有相似性而 距离较远的片段间语义特征具有差异性等,并设计一种新的网络模型来提升 视频分类和时序定位的精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110262515.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:物理抗泄保健仪
- 下一篇:一种电梯对重护栏装置