[发明专利]基于注意力机制和3D卷积神经网络的人体行为识别方法有效
申请号: | 201810463529.5 | 申请日: | 2018-05-15 |
公开(公告)号: | CN108830157B | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 袁和金;牛为华;张颖;崔克彬 | 申请(专利权)人: | 华北电力大学(保定) |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 石家庄开言知识产权代理事务所(普通合伙) 13127 | 代理人: | 赵俊娇 |
地址: | 071003 河*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 卷积 神经网络 人体 行为 识别 方法 | ||
本发明公开了一种基于注意力机制和3D卷积神经网络的人体行为识别方法,该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。该方法中构建了识别视频中的人体行为的3D CNN模型,引入了注意力机制,计算两帧间的距离作为注意力矩阵,和原始人体行为视频序列构成双通道输入到构建的3D CNN中,让卷积操作对视觉重点区域进行着重特征提取。同时,对3DCNN结构进行优化,在网络中加入Dropout层随机冻结网络部分连接权值,使用ReLU激活函数,提高网络稀疏性,解决随着维度增加、层数加深引起的计算量剧增、梯度消失的问题,防止小数据集下的过拟合,提升网络识别准确率的同时减小时间的损耗。
技术领域
本发明涉及人体行为识别方法,尤指一种基于注意力机制和3D卷积神经网络的人体行为识别方法。
背景技术
智能视频分析一直是具有重要学术价值的研究领域,人体行为识别作为该领域中必不可少的一部分,成为了新的研究热点,在智能视频监控、高级人机交互、体育运动分析和基于内容的视频检索等方面都有广阔的应用前景。目前主流的人体行为识别方法大多使用人工设计的特征对视频中的人体运动进行表征,如轮廓、剪影、HOG、Harris、SIFT以及这些特征在三维上的扩展等。人工设计特征是一种利用人类的智慧和先验知识,且将这些知识应用到目标和行为识别技术中的很好的方式。但这种方式需要人工发掘能够表现运动的特征,而人工选择的特征有时较难表现出动作的本质特征,对识别结果影响较大。
因此,如何提高视频中人体行为识别准确率,更好地利用视频中的原始信息,是本领域技术人员努力研究的方向。
发明内容
有鉴于此,本发明的主要目的在于提高视频中人体行为识别准确率,考虑到视频作为相互关联的图像在时间维度上的连续序列,可以通过卷积神经网络来进行处理,可将原始视频直接输入进构建的神经网络中,进行人体行为的训练和识别,本发明的目的之一在于提出一种能更好地利用视频中的原始信息的基于注意力机制的3D卷积神经网络模型。
为实现上述目的,本发明提供了一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。
较佳的,所述注意力矩阵是通过计算连续两帧之间的差分,并进行归一化后得到的。
较佳的,所述注意力矩阵的计算是采用对连续两帧之间的差分计算的二差分法或者将相邻的三帧图像作为一组进行再差分三帧差法。传统的三帧差法是当前帧与前后帧差分后进行再差分,本发明进一步改进为取两次差分结果的“并集”,并集这个概念通过取每个像素点当前帧和前后帧差分结果的较大值得到,该结果能表示当前帧前后发生最大变化的区域。
所述三帧差法是分别求出当前帧和前一帧以及当前帧与后一帧的差分图像,继续让两个帧差再做差。
较佳的,该两帧差分法中,注意力矩阵A是通过以下公式计算得出:
其中,x,y为目标像素点的坐标,t为当前帧序号,t-1表示当前帧的前一帧,It为当前帧在x,y位置的灰度值,公式(3)为计算相邻两帧之间的距离,通过公式(2)中的阈值T将无显著性变化区域剔除,得到显著性变化区域ID,通过公式(1)对距离进行归一化,最终得到注意力矩阵A,其中min和max为显著性变化区域ID内的所有像素中灰度值中的最小值和最大值,该三维矩阵能够表示输入的人体行为视频中动作显著性变化区域。
较佳的,该三帧差分法步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810463529.5/2.html,转载请声明来源钻瓜专利网。