[发明专利]一种基于时域语义特征的弱监督时序动作检测方法在审

申请号：	202110262515.9	申请日：	2021-03-10
公开（公告）号：	CN113283282A	公开（公告）日：	2021-08-20
发明（设计）人：	孔德慧;许梦文;王少帆;李敬华;王立春	申请（专利权）人：	北京工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时域语义特征监督时序动作检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于时域语义特征的弱监督时序动作检测方法属于计算机视觉视频领域，弱监督时序动作检测任务是在仅依靠视频级别标签的情况下，对未修剪的长视频中的每一段动作进行时序上的定位和分类。目前的方法还是将时序动作检测任务视为动作识别的变体任务，他们着重在模型的特征提取、提名生成、分类器训练等方面做研究，却忽视了该任务视频本身的时域语义特征。本发明首先归纳了长视频时域语义特征：动作片段在时序上的稀疏性、相邻片段之间的语义特征具有相似性而距离较远的片段间语义特征具有差异性等，并基于此设计一种新的网络模型来提升视频分类和时序定位的精度。本发明性能超过了目前的先进方法。

技术领域

本发明属于计算机视觉视频理解技术领域，具体是弱监督时序动作检测方法。

背景技术

视频理解是计算机视觉领域的一项十分重要的任务。近年来随着人工智能领域的发展，涌现出众多视频理解的方法和技术，目前主流的视频理解任务可以分为视频动作识别和视频时序动作检测两种。其中，动作识别是对预先分割好的短视频进行行为分类，训练数据的视频只包含一个动作。然而现实中的视频通常是未分割的长视频，而且包含多尺度、多类别动作片段和无关背景片段，比如监控视频、比赛视频等。针对这种长视频进行分析和理解，不仅需要对动作分类，还要对每一段动作进行时间维度上的定位。时序动作检测任务就是输入一段未分割的视频，输出该视频所包含的动作类别，并且定位所包含动作的开始和结束时间。全监督时序动作检测需要视频中每一帧的标注信息，需要大量的人力物力，而且标注的标准也会受到个人的主观影响。所以目前大量研究均基于弱监督学习框架，即视频只含有动作类别的标注，没有时间的标注信息。这将大大减小视频分析成本，提高视频分析的安全性和可靠性，所以弱监督时序动作检测是一个研究热点。

对于一个给定的视频，希望预测一组动作实例{c_j,s_j,e_j,q_j}，其中c_j表示预测的动作类，s_j,e_j表示实例的开始时间和结束时间，q_j表示实例的置信度得分。所以时序动作检测任务是包含动作分类和动作时序定位的综合任务，难度远大于动作识别任务。主要原因是由于未分割长视频本身的复杂性。未分割的长视频比如监控视频，整体时间跨度大，真实动作占有时间短，而且由于光照原因，相同动作不同视频的纹理特征相差较大，动作片段与相邻的背景片段很相似，难以精确定位动作时间。这些特点给时序动作检测增加了独有的复杂性和难度。而弱监督时序动作检测相比于全监督时序动作检测缺少了动作时间的标注信息，标签数据提供的信息太少，不能直接有效地训练网络模型，这使得动作片段与相邻的背景片段更加难以区分。

弱监督时序动作检测通常依靠分类器来实现，一般可分为从局部到全局和从全局到局部的计算过程。从局部到全局的方法最先发展，该方法将视频分成小片段，先分类小片段的类别，再将小片段的类别分数融合为视频类别分数，最后依据视频的类别回溯到片段分数进行定位操作。从全局到局部的方法把整个视频的特征融合在一起，直接对视频分类，定位时再使用视频分类器对片段特征分类，根据分类分数进行定位。最近基于注意力机制、背景类建模的方法实现最新性能。这类方法在数据集标注信息不全的情况下也能够定位动作，但是由于该任务本身固有的特点，标签提供的信息太少，视频动作片段与相邻的背景片段特征高度相似，单纯的注意力机制得到的结果无法保证其准确性性，更难以做到精确时序定位。总的来讲，目前的方法还是将时序动作检测任务视为动作识别的变体任务，他们着重在模型的特征提取、提名生成、分类器训练等方面做研究，却忽视了该任务视频本身的时域语义特征，比如长视频中动作的占有时间很少即动作片段在时序上具有稀疏性、视频相邻帧之间在语义特征空间上具有很大的相关性等等。

发明内容

本发明针对弱监督学习框架下的少标签数据，如何进行表征学习，或者如何从数据本身出发设计有效的辅助任务问题，归纳了基于长视频时域语义特征：动作片段在时序上的稀疏性、相邻片段之间的语义特征具有相似性而距离较远的片段间语义特征具有差异性等，并设计一种新的网络模型来提升视频分类和时序定位的精度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110262515.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于时域语义特征的弱监督时序动作检测方法在审

专利文献下载