[发明专利]一种基于空洞卷积的高时序3D神经网络的动作识别方法有效

申请号：	201910436122.8	申请日：	2019-05-23
公开（公告）号：	CN110334589B	公开（公告）日：	2021-05-14
发明（设计）人：	徐永洋;冯雅兴;谢忠;胡安娜;曹豪豪	申请（专利权）人：	中国地质大学（武汉）
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04
代理公司：	武汉知产时代知识产权代理有限公司 42238	代理人：	易滨
地址：	430000 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于空洞卷积时序神经网络动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于，包括如下步骤：

S101：获取公开数据集，并将所述数据集划分为训练集和测试集；所述公开数据集包括UCF101和HMDB51两个公开数据集；

S102：对三维Inception-V1神经网络模型进行改进，得到改进后的三维Inception-V1神经网络模型；

S103：将所述训练集和所述测试集中的所有视频分别进行预处理，得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据；

S104：采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试，以对所述改进后的三维Inception-V1神经网络模型的内部参数进行训练，进而得到训练后的高精度三维Inception-V1神经网络模型；

S105：将待识别的视频进行预处理，得到预处理后的帧图像数据；

S106：将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception-V1神经网络模型，得到所述待识别的视频所属的动作类型；

步骤S102中，所述改进后的三维Inception-V1神经网络模型包括5个Stage，分别为Stage1、Stage2、Stage3、Stage4和Stage5；步骤S102中，对三维Inception-V1神经网络模型进行改进，包括以下两个方面：

1)将Stage4和Stage5中的原来的3D Inception blocks替换为3D Inception-Tblocks；同时修改与Stage4和Stage5相近的最大池化操作：在时间维度采用卷积核为1，步长为1的池化层；其中，3D Inception-T blocks相比于原3D Inception blocks的改进为：卷积操作分别使用空洞卷积率为2和4的卷积核，即在Stage4中使用rate为2的空洞卷积，在Stage5中使用rate为4的空洞卷积；

2)在Stage4的每个3D Inception-T blocks后添加一个非局部特征门块，为各3DInception-T blocks的特征向量X重新赋予权重，以提高模型精度；其中，所述非局部特征门块中使用非局部特征门算法，具体如公式(1)：

Z＝σ(Y)e X (1)

上式中，X为输入3D Inception-T blocks的特征向量，Y为输入3D Inception-Tblocks的非局部特征向量，Z为重新赋予特征向量X的权重，σ是sigmoid激活函数，⊙为矩阵相乘运算。

2.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：步骤S103中，预处理方法为：首先采用OpenCV图像库对各视频进行帧图像提取，以将所述训练集和所述测试集中的各视频分别处理为连续帧图像；

然后在各视频的连续帧图像中提取64帧图像，作为各视频的帧图像数据；所述训练集中所有视频的帧图像数据共同组成帧图像训练数据，所述测试集中所有视频的帧图像数据共同组成帧图像测试数据。

3.如权利要求2所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：在某个视频的连续帧图像中提取64帧图像的方法为：首先将该视频的连续帧图像均分为64份；然后在每一份中随机选取一帧图像，进而组成64帧图像；最后将这64帧图像作为该视频的帧图像数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国地质大学（武汉），未经中国地质大学（武汉）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910436122.8/1.html，转载请声明来源钻瓜专利网。

上一篇：基于局部特征注意网络的亲属关系识别方法及装置
下一篇：图像采集引导方法以及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于空洞卷积的高时序3D神经网络的动作识别方法有效

专利文献下载