[发明专利]用于中短时视频的从粗到细的行为快速检测与分类方法及系统有效
申请号: | 202010042072.8 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111259790B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 林巍峣;李昱希;徐树公 | 申请(专利权)人: | 上海交通大学;上海大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/82;G06V10/77;G06N3/0455;G06N3/0464 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 中短时 视频 粗到细 行为 快速 检测 分类 方法 系统 | ||
1.一种用于中短时视频的从粗到细的行为快速检测与分类方法,其特征在于,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测;
所述的目标分类是指:将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化,使三维特征变成二维特征,得到行为类别以及行为轨迹的描述参数;
行为类别的描述参数为:c∈[0,1]K,类别描述为一个归一化的K为向量,K为总类别数量,每一维的数值代表属于该行为类别的置信度;
行为轨迹的描述参数为:θ=[θx,θy,θw,θh]T,其中:θ表示为一个4×(k+1)规模的矩阵,k=4为多项式阶数,矩阵每一列(θx,θy,θw,θh)表示对应目标框空间坐标的k+1个多项式系数;
所述的粗略定位是指:利用关键帧选择网络对将时域定位得到的采样特征信息进行选择,得到对于最终定位最为关键时间戳对应的二维特征。
2.根据权利要求1所述的方法,其特征是,所述的时空联合的特征提取是指:利用三维卷积神经网络对固定帧数的输入视频进行卷积,卷积的最终输出为三维网格,每个网格中包含一个固定维度的高维特征向量来描述局部时空关系;
所述的高维特征向量为:F∈RC×T×H×W,其中:F为高位特征向量构成的网格;T、H、W分别为网格的时间尺度、高度和宽度;c为向量维度。
3.根据权利要求1所述的方法,其特征是,所述的时域定位是指:对三维网格进行空间平均池化得到一维特征,并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标,再在三维网格上的对应起止区间的相对坐标中进行均匀采样,得到稀疏采样后的二维空间特征;
所述的时域检测是指:利用一层一维卷积神经网络对池化得到的一维特征进行卷积,输出对应位置存在行为的概率和起止区间的相对坐标。
4.根据权利要求1所述的方法,其特征是,所述的关键帧选择网络包括:级联的空间均匀池化层和一维编码-解码层,其中:空间均匀池化层对采样特征信息进行空间降维处理,一维编码-解码层对降维后的采样特征进行编码-解码,得到每个采样特征的关键帧置信度;
所述的编码-解码具体是指:利用步长为2的一维卷积对一维特征进行逐次降采样,实现编码;对降采样后的特征,利用步长为2的一维反卷积操作进行升采样,实现解码,解码端输出的时间尺度与输入端一致,即采样帧个数。
5.根据权利要求1所述的方法,其特征是,所述的修正是指:根据目标分类得到的行为类别以及行为轨迹的描述参数生成粗略的行为轨迹描述,在粗略定位得到的关键帧上的粗略行为轨迹的位置,在该位置附近的领域通过局部检测得到该领域内置信度最高的行为检测框替代原本的位置,实现行为轨迹的修正。
6.根据权利要求5所述的方法,其特征是,所述的粗略行为轨迹为:其中:t表示关键帧选择网络输出关键帧对应的时间戳,[x(t),y(t),w(t),h(t)]在该关键帧上粗略估计的框坐标;
所述的局部检测是指:通过级联的二维卷积网络在对应被选择的关键帧的二维特征上进行卷积操作得到对应的检测框以及置信度。
7.一种用于中短时视频的从粗到细的行为快速检测与分类系统,其特征在于,包括:粗略定位单元对原采样特征及差分特征同时处理得到行为的类别与轨迹描述参数,实现目标行为的粗略定位并输出至修正单元,修正单元利用粗略定位以及选择的关键帧,细化修正坐标框得到轨迹描述信息。
8.根据权利要求7所述的系统,其特征是,所述的粗略定位单元将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果进行全局目标检测,得到行为类别以及行为轨迹的描述参数;
所述的修正单元利用空间池化-编码-解码的级联结构对每一帧采样特征进行权重评估,通过选取权重较大的关键帧,在对应的采样二维特征上利用二维卷积模块输出修正后的目标框及置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学;上海大学,未经上海交通大学;上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010042072.8/1.html,转载请声明来源钻瓜专利网。