[发明专利]一种深度视频行为识别方法及系统有效
申请号: | 201910346049.5 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110059662B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 马昕;武寒波;宋锐;荣学文;田国会;李贻斌 | 申请(专利权)人: | 山东大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 视频 行为 识别 方法 系统 | ||
1.一种深度视频行为识别方法,其特征在于,包括:
获取深度视频信息,得到该深度视频的动态图像序列表示;
将深度视频的动态图像序列表示作为CNNs的输入;
在CNNs卷积层后嵌入通道与时空兴趣点注意力模型,对卷积特征图进行优化调整;
首先将输入图像在CNNs最后一组卷积层生成的特征图作为通道注意力模块的输入,通过初始卷积特征图与通道注意力权值α相乘,将输出的通道注意力加权特征图作为时空兴趣点注意力模块的输入对卷积特征图继续进行优化调整,将通道注意力加权特征图与时空兴趣点注意力权值β′进行元素级相乘,生成的时空兴趣点注意力加权特征图作为图像最终调整后的卷积特征图;
将全局平均池化应用于所述深度视频的被调整后的卷积特征图中,生成行为视频的特征表示;
将行为视频的特征表示输入到LSTM网络中,捕获人体行为的时间信息并进行分类。
2.如权利要求1所述的一种深度视频行为识别方法,其特征在于,得到该深度视频的动态图像序列表示,具体为:
假设一个包含N帧的视频V被等分为T个不重叠的片段,表示为其中St是第t个视频片段,基于视频分割后的每一个短时片段,应用分级池化对其所包含的连续帧进行聚合,生成对应的动态图像,以描述行为视频局部的时空动态;依次对每一个短时片段进行处理,最后得到对应的T帧动态图像序列;分级池化利用成对线性排序机学习一个线性函数,其参数对视频帧的时序进行编码用作视频新的表示。
3.如权利要求1所述的一种深度视频行为识别方法,其特征在于,将深度视频的动态图像序列表示作为CNNs的输入,具体为:
对于视频动态图像序列中的第i帧,i=1,…,T,将其输入CNNs,得到最后一个卷积层的特征,表示为ConvFi∈RC×H×W,即包含C个通道尺寸大小为H×W的特征图;
对于由T帧动态图像表示的行为视频,最终得到其卷积特征表示:ConvF={ConvF1,…,ConvFi,…,ConvFT}∈RT×C×H×W。
4.如权利要求1所述的一种深度视频行为识别方法,其特征在于,所述通道与时空兴趣点注意力模型包括:通道注意力模块和时空兴趣点注意力模块,所述通道注意力模块用于发现CNNs卷积特征中更具辨识力的通道;所述时空兴趣点注意力模块用于聚焦显著的运动区域,以实现有效的行为识别。
5.如权利要求4所述的一种深度视频行为识别方法,其特征在于,所述通道注意力模块对卷积特征图进行优化调整,具体为:
假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈RC×H×W;
对卷积特征图应用全局平均池化,将通道全局空间信息压缩成通道描述向量;
生成通道注意力模块的权值表示;
卷积特征图与通道注意力模块的权值表示按通道进行乘积运算,得到通道注意力加权特征图。
6.如权利要求5所述的一种深度视频行为识别方法,其特征在于,所述生成通道注意力模块的权值表示,具体为:
α=f(Wuδ(WdU))
其中,Wd是缩减比例为r的通道下采样卷积层的权重参数,δ(·)是ReLu激活函数,Wu是放大比例为r的通道上采样卷积层的权重参数,f(·)是sigmoid激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910346049.5/1.html,转载请声明来源钻瓜专利网。