[发明专利]基于深度学习的轻量化视频动作识别方法及系统有效
申请号: | 202110549551.3 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113343786B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 王中元;陈建宇;曾康利;黄宝金 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06N3/04 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 量化 视频 动作 识别 方法 系统 | ||
1.一种基于深度学习的轻量化视频动作识别方法,其特征在于,包括以下步骤:
步骤1:对输入视频进行预处理操作,获得相应类别的视频帧序列;
步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入视频帧沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
所述基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;
所述Inception-V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception-V3网络插入10个MDM模块;
使用标准的交叉熵损失函数和SGD优化函数对所述基于深度学习的轻量化视频动作识别网络进行训练;
步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
2.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:对视频进行切分操作,将视频片段切割为单帧放到指定文件夹中;
步骤1.2:对步骤1.1中处理后的单帧图像进行裁剪,指定尺寸为229×229大小;
步骤1.3:对步骤1.2裁剪后的视频帧图像进行数据增广处理,具体方式为随机组合以下操作:随机水平翻转、随机裁剪、随机仿射变换;从而实现扩增数据的效果。
3.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法,其特征在于:步骤2中所述将得到的特征图执行时间偏移操作,是将时空协同卷积输出的两个分组特征沿时间维度分别进行正向时间偏移和逆向时间偏移;然后对时间偏移后的分组特征沿通道维度进行拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110549551.3/1.html,转载请声明来源钻瓜专利网。