[发明专利]一种深度视频行为识别方法及系统有效

申请号：	201910346049.5	申请日：	2019-04-26
公开（公告）号：	CN110059662B	公开（公告）日：	2021-03-23
发明（设计）人：	马昕;武寒波;宋锐;荣学文;田国会;李贻斌	申请（专利权）人：	山东大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	董雪
地址：	250061 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种深度视频行为识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种深度视频行为识别方法及系统，包括：把深度视频的动态图像序列表示作为CNNs的输入，在CNNs卷积层后嵌入通道与时空兴趣点注意力模型，对卷积特征图进行优化调整。最后，将全局平均池化应用于输入深度视频的被调整后的卷积特征图中，生成行为视频的特征表示，并将其输入到LSTM网络中，捕获人体行为的时间信息并进行分类。在三个具有挑战性的公共人体行为数据集上进行评估，实验结果表明，本发明方法能够提取具有辨识力的时空信息，显著地提升视频人体行为识别的性能。与其他现有方法相比，该方法有效地提高了行为识别率。

技术领域

本发明属于基于视频的人体行为识别技术领域，具体涉及一种融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

基于视频的人体行为识别由于其广泛的应用，如智能视频监控、视频检索和老年人监护等，近年来在计算机视觉领域引起了越来越多的关注。尽管对视频中人体行为的理解与分类已经开展了大量的研究工作来提高动作识别的性能，但由于复杂的背景环境、丰富的行为类间变化以及微小的行为类内差异等问题造成的干扰，基于视频的人体行为识别仍然是一个极具挑战性的研究领域。低成本深度传感器Microsoft Kinect的出现使得基于深度数据的行为识别成为了非常活跃的研究课题，与RGB模态相比，深度数据对光照变化的敏感度较低，能够提供人体三维的运动信息，从而更好地进行行为的识别。此外，深度图像很好地掩盖了被检测人的身份信息，在实际应用中有效地保护了人的隐私。

最近，由于计算能力的显著进步和大量标注数据集的可用性，深度学习引起了广泛的关注，并被用于解决各种各样的计算机视觉挑战。得益于深度网络在目标检测、人脸检测、图像检索和图像分类等方面取得的成功，许多研究人员将深度网络模型应用于基于视频的行为识别任务中。深度网络可以自动学习具有辨识力的图像特征，有效地提升视频理解的性能。一些早期的方法利用卷积神经网络(convolutional neural networks，CNNs)进行视频中的行为识别，有两种常用的基于CNNs的网络框架，一个是Simonyan等人提出的双流CNNs，通过将来自RGB图像的外观信息和来自光流的运动信息分别输入两个CNNs来获得更好的识别性能。另一种是3D卷积网络(3D convolutional networks，C3D)，它可以利用3D卷积核在小范围内同时捕获视频的时空信息。然而，从整体上来看，基于CNNs的方法并不善于处理行为视频中的时间信息。为了解决这一问题，循环神经网络(recurrent neuralnetworks，RNNs)应运而生，它在处理序列数据方面具有很大的优势，其中长短时记忆网络(long short-term memory，LSTM)尤其适用于建模长视频的序列信息。

发明人发现，虽然基于CNNs的方法在行为识别方面取得了巨大的成功，但仍然存在两个问题。首先，CNNs缺乏对整个视频的长时间依赖性建模的能力。

其次，CNNs模型没有能力去聚焦输入图像中的信息区域，而对于视频中的行为识别来说，图像帧中与行为相关的显著运动区域非常重要。注意力机制在自然语言处理和图像标注等各种预测任务中展现出了显著的效果，它的出现是受到了人类注意力机制的启发，人们通常会有选择性地聚焦于视觉场景的目标区域以获取更详细的信息，而不是一次性同时处理整个场景的信息。由于注意力机制有助于聚焦视频中人体前景的运动细节，因此被广泛与深度网络模型相结合来进行行为的识别。大多数现有的注意力模型通常考虑的是行为视频的空间或时间特征。空间层次的注意力模型集中在图像帧中的突出运动区域，而时间层次的注意力模型集中于视频序列中的关键帧。CNNs的卷积层特征包含了丰富的结构、角点、边缘和纹理等空间信息，对行为识别具有重要的价值。此外，卷积特征是多通道的，不同的通道对应不同的特征检测子，忽略特征通道之间的不同学习能力，并对其进行同等处理，可能会降低CNNs卷积特征的强大表达能力。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910346049.5/2.html，转载请声明来源钻瓜专利网。

上一篇：动作识别方法、人机交互方法、装置及存储介质
下一篇：一种基于特征点检测的粘连蘑菇视觉识别与测量方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种深度视频行为识别方法及系统有效

专利文献下载