[发明专利]基于可分离三维残差注意网络的人体动作识别方法有效
申请号: | 202110334547.5 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113065450B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 张祖凡;彭月;甘臣权;张家波 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/46;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 可分离 三维 注意 网络 人体 动作 识别 方法 | ||
本发明涉及一种基于可分离三维残差注意网络的人体动作识别方法,属于计算机视觉领域。该方法包括:S1:利用可分离三维卷积替换3D ResNet中的标准三维卷积,搭建Sep‑3D ResNet;S2:设计通道注意力模块和空间注意力模块,然后按顺序堆叠构造双重注意力机制;S3:对不同时刻的中层卷积特征进行双重注意力加权,在时间维度上扩展双重注意力模块,然后将其嵌入到Sep‑3D ResNet的Sep‑3D RAB中,搭建Sep‑3D RAN;S4:利用多阶段训练策略对Sep‑3D RAN进行联合端到端训练。本发明能提升分类判别特征的区分能力,实现了高质量时空视觉特征的高效提取,能够增强模型的分类精度和识别效率。
技术领域
本发明属于计算机视觉领域,涉及一种基于可分离三维残差注意网络的人体动作识别方法。
背景技术
视频中隐藏着巨大的信息,网络视频市场庞大的用户量、高速增长的市场规模给网络视频的管理、存储、识别带来了极大的挑战,因此网络视频业务日益受到各方的重视。在以人为中心的计算机视觉研究领域中,人体动作识别任务因其在人机交互、智能家居、自动驾驶、虚拟现实等诸多领域中应用广泛,成为计算机视觉任务中一个重要的研究方向。人体动作识别的主要任务是自发地识别出图像序列或视频中的人体动作,通过对图像序列进行处理分析,剖析人体运动模式,建立视频内容和动作类别之间的映射关系,从而挖掘视频中所包含的深层次信息,学习并分析视频中的人体动作和行为,进而理解视频内容。对视频中的人体动作进行精确识别,有利于互联网平台对海量相关视频数据进行统一分类管理,有助于营造和谐的网络环境。此外,人体动作识别技术的发展也促使了视频异常监控业务的成熟,在公共场合中能辅助社会治安管理人员迅速对危机事件做出预测,在家庭生活中能及时监控用户的异常行为(如晕倒,摔跤等)以便及时就医。因此,对视频中的人体动作进行精确地识别,具有重要的学术价值和应用价值。
传统的动作识别算法依赖于人工设计特征,且往往要根据不同的任务进行特定的特征设计,识别算法的性能严重依赖于数据库本身,增加了不同数据集上处理过程的复杂度,泛化能力和通用性较差。并且,在现如今信息爆炸的时代背景下,图像和视频数据呈指数级增长,人们更倾向于采用非人工的方法提取更具有一般性的特征表示,因此基于手工特征的动作识别方法无法满足任务需求。
深度学习得益于其层级训练模式,通过层层递进的特征提取机制自动从原始视频数据中抽取高维特征,充分捕获视频数据的上下文语义信息,从而增加深度模型的描述能力,有利于最后的识别判断,因此在动作识别领域中得到了广泛的应用。近年来,深度学习应用于人体动作识别领域的主要技术有2D CNN、3D CNN和注意力机制等。2D CNN可以有效地捕捉RGB视频帧的空间邻域相关性信息,3D CNN可以同时捕捉时空维度上的视觉特征,注意力机制可以实现关键性特征的灵活筛选,从而提升模型的识别性能。虽然2D CNN复杂度较低且参数量较少,但由于时间流信息的缺乏,其对于动态特征的提取能力不足;虽然3DCNN能在原始输入数据上直接进行时空特征的融合,但会导致模型参数量的大幅增加,不利于模型的优化过程。此外,特征提取过程中包含大量冗余特征,导致模型的识别结果受到干扰。
因此,亟需一种能够提高视频识别性能的方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于可分离三维残差注意网络的人体动作识别方法,采取合理的核结构分解操作以缓解深度三维卷积模型优化困难现象,并结合注意力机制以提升关键性特征筛选的灵活性,从而制取更高质量的时空视觉特征以提升模型的识别性能。
为达到上述目的,本发明提供如下技术方案:
一种基于可分离三维残差注意网络的人体动作识别方法,具体包括以下步骤:
S1:构造可分离三维卷积,利用可分离三维卷积替换传统三维残差网络(3Dresidual network,3D ResNet)中的标准三维卷积,从而搭建可分离三维残差网络(Separable 3D residual network,Sep-3D ResNet),以缓解深度三维卷积模型优化困难现象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110334547.5/2.html,转载请声明来源钻瓜专利网。