[发明专利]一种基于空洞卷积的高时序3D神经网络的动作识别方法有效
申请号: | 201910436122.8 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110334589B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 徐永洋;冯雅兴;谢忠;胡安娜;曹豪豪 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 易滨 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 空洞 卷积 时序 神经网络 动作 识别 方法 | ||
1.一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于,包括如下步骤:
S101:获取公开数据集,并将所述数据集划分为训练集和测试集;所述公开数据集包括UCF101和HMDB51两个公开数据集;
S102:对三维Inception-V1神经网络模型进行改进,得到改进后的三维Inception-V1神经网络模型;
S103:将所述训练集和所述测试集中的所有视频分别进行预处理,得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据;
S104:采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,以对所述改进后的三维Inception-V1神经网络模型的内部参数进行训练,进而得到训练后的高精度三维Inception-V1神经网络模型;
S105:将待识别的视频进行预处理,得到预处理后的帧图像数据;
S106:将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception-V1神经网络模型,得到所述待识别的视频所属的动作类型;
步骤S102中,所述改进后的三维Inception-V1神经网络模型包括5个Stage,分别为Stage1、Stage2、Stage3、Stage4和Stage5;步骤S102中,对三维Inception-V1神经网络模型进行改进,包括以下两个方面:
1)将Stage4和Stage5中的原来的3D Inception blocks替换为3D Inception-Tblocks;同时修改与Stage4和Stage5相近的最大池化操作:在时间维度采用卷积核为1,步长为1的池化层;其中,3D Inception-T blocks相比于原3D Inception blocks的改进为:卷积操作分别使用空洞卷积率为2和4的卷积核,即在Stage4中使用rate为2的空洞卷积,在Stage5中使用rate为4的空洞卷积;
2)在Stage4的每个3D Inception-T blocks后添加一个非局部特征门块,为各3DInception-T blocks的特征向量X重新赋予权重,以提高模型精度;其中,所述非局部特征门块中使用非局部特征门算法,具体如公式(1):
Z=σ(Y)e X (1)
上式中,X为输入3D Inception-T blocks的特征向量,Y为输入3D Inception-Tblocks的非局部特征向量,Z为重新赋予特征向量X的权重,σ是sigmoid激活函数,⊙为矩阵相乘运算。
2.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S103中,预处理方法为:首先采用OpenCV图像库对各视频进行帧图像提取,以将所述训练集和所述测试集中的各视频分别处理为连续帧图像;
然后在各视频的连续帧图像中提取64帧图像,作为各视频的帧图像数据;所述训练集中所有视频的帧图像数据共同组成帧图像训练数据,所述测试集中所有视频的帧图像数据共同组成帧图像测试数据。
3.如权利要求2所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:在某个视频的连续帧图像中提取64帧图像的方法为:首先将该视频的连续帧图像均分为64份;然后在每一份中随机选取一帧图像,进而组成64帧图像;最后将这64帧图像作为该视频的帧图像数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910436122.8/1.html,转载请声明来源钻瓜专利网。