[发明专利]一种基于空洞卷积的高时序3D神经网络的动作识别方法有效
申请号: | 201910436122.8 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110334589B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 徐永洋;冯雅兴;谢忠;胡安娜;曹豪豪 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 易滨 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 空洞 卷积 时序 神经网络 动作 识别 方法 | ||
本发明提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法,包括:首先对三维Inception‑V1神经网络模型进行改进,得到改进后的三维Inception‑V1神经网络模型;然后将公开数据集分为训练集和测试集对改进后的三维Inception‑V1神经网络模型进行训练和测试,得到训练后的高精度三维Inception‑V1神经网络模型;最后采用训练后的高精度三维Inception‑V1神经网络模型对实际视频的动作进行识别。本发明的有益效果是:本发明所提出的技术方案在保持高时序性的同时引入新的非局部特征门算法来重新定义三维Inception‑V1神经网络模型通道权重,提高了模型准确率。
技术领域
本发明涉及人工智能、计算机视觉领域领域,尤其涉及一种基于空洞卷积的高时序3D神经网络的动作识别方法。
背景技术
近些年来,作为计算机视觉任务之一的行为识别受到越来越多的关注。随着深度学习方法在图像分类、分割等领域的成功,行为识别方法也已经从传统人工提取特征的方法向着深度学习方法发展,特别是卷积神经网络方面,并且取得了不错的效果。
基于深度学习的视频识别方法大体分为两类,2D CNNs和3D CNNs。2D CNNs方法将空间和时间信息分开学习再融合得到最后的分类结果,同时借助于2D CNNs方法在图像识别领域的成功,2D CNNs方法取得了state-of-art结果.不同于2D CNNs使用2D的卷积核进行运算,3D CNNs中将2D卷积核扩充到3维,增加时间维度,使3D CNNs方法可以在训练静态图片的过程中同时学习空间和时间信息。但是相比较于2D CNNs方法在UCF101、HMDB51等数据集上获得的精度,3D CNNs方法并不能获得让人满意的结果。2D CNNs方法在进行视频识别的时候输入网络的是代表整个视频的间隔采样帧图像,从输入到输出时间信息都保持完整。而一般的3D CNNs都会对时间维度进行下采样,这就导致了进入网络的时间维度到最后变小几倍,这与2D CNNs时间维度信息没有变化是有差别的,而这种时间维度的变化是否会对3D CNNs的精度产生影响呢?为了解决3D CNNs网络中时间维度下采样问题,本方法修改3D CNNs网络中对时间维度的下采样操作,让网络保持一个高时序.通俗来讲本方法修改网络中的max-pooling操作从步长2x2x2到1x2x2。修改时间维度之后网络相比于之前的下采样操作会在感受野上发生变化,为了获得较之前网络同等大小的感受野,本方法在后面的3D卷积核中使用空洞卷积.这样一来网络在保持高时序的同时拥有较大感受野。
为了提高视频识别精度,一方面可以使用Kinetics、Sports-1M等大数据集训练新模型然后再到UCF101、HMDB51等小型数据集上微调,但是在大数据集上从最开始训练一个好的模型往往要花费较长时间,尤其是3D卷积神经网络.另一方面可以在现有state-of-art网络,如I3D、Res3D,的基础上使用迁移学习方法进行改进。通过加入像non-localblock、TTL等模块,模型精度可以进一步提升。但是之前的大多数模块都忽略了在通道之间的交互。最近提出的STC block、spatio-temporal feature gating和context featuregating通过关注通道之间的交互,进一步提升了模型精度。为进一步提升模型精度,本方法引入了一种新的非局部特征门(non-local feature gating)块,它可以有效地捕获整个网络层的通道之间的相关信息。
发明内容
为了解决上述问题,本发明提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法,一种基于空洞卷积的高时序3D神经网络的动作识别方法,主要包括以下步骤:
S101:获取公开数据集,并将所述数据集划分为训练集和测试集;所述公开数据集包括UCF101和HMDB51两个公开数据集;
S102:对三维Inception-V1神经网络模型进行改进,得到改进后的三维Inception-V1神经网络模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910436122.8/2.html,转载请声明来源钻瓜专利网。