[发明专利]一种基于视频输入的双流全局-局部动作识别方法、系统、设备及存储介质在审
申请号: | 202310070774.0 | 申请日: | 2023-01-19 |
公开(公告)号: | CN116311495A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 苗启广;梁思宇;李宇楠;陈绘州;史媛媛;刘如意;盛立杰;刘向增;谢琨;卢子祥;宋建锋;刘林润佳;权义宁 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/42;G06V10/44;G06V20/40;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 季海菊 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 输入 双流 全局 局部 动作 识别 方法 系统 设备 存储 介质 | ||
一种基于视频输入的双流全局‑局部动作识别方法、系统、设备及存储介质,方法包括:采集内容为单个识别对象行为的视频输入,使用识别对象关键点识别方法提取识别对象特征关键点,并选取其中关键点在识别对象行为视频中进行逐帧裁剪,得到多个对应区域的局部图像;对识别对象局部图像组成的多个局部视频输入和全局视频输入进行数据预处理工作;分别使用局部视频和原始视频输入网络,训练局部特征提取模块和全局特征提取模块;加入局部特征增强模块和结果融合结构协同训练,得到全局‑局部动作识别模型;进行动作识别;所述系统、设备及介质用于实现多局部提取的双流全局‑局部动作识别方法;本发明操作简单、能够提高整体双流全局‑局部动作识别方法得到的动作识别预测结果的效果。
技术领域
本发明属于视频处理和理解的技术领域,具体涉及一种基于视频输入的双流全局-局部动作识别方法、系统、设备及存储介质。
背景技术
人体行为识别技术主要包括人体目标识别、人体跟踪与行为识别三个方面。其中,行为识别是基于前两者的更高级别的计算机视觉部分。研究出一种健壮的行为识别算法具有重要的理论意义与广泛的应用前景,其中包括智能视频监控、视频检索。为了减少背景冗余信息的干扰,学习视频中的人体动态信息,很多方法都通过融合多种模态的信息来进行识别,除此之外,一些方法结合视频当中的全局和局部信息更好地完成识别任务。全局局部的方法包括截取视频中人体局部来进行行为识别。StNet把连续N帧的图像在RGB通道维度连接后作为视频的全局表示,称为超图,在超图中获取局部时空特征,然后对局部时空特征组合后在时间维度上进行特征提取得到全局时空特征。基于注意力的方法使用注意力机制强调视频中的局部信息作为一个分支,与全局网络做softmax层的融合以融合全局局部特征。
专利申请CN113761992A公开了一种视频动作识别方法,包括:获取视频;将视频输入神经网络模型的隐含层进行处理,得到视频中的识别对象及识别对象对应的运动,其中神经网络模型的隐含层包括多个处理单元;以及基于视频中的识别对象及识别对象对应的运动,输出视频的动作识别结果;其中,在至少一个处理单元中,顺序提取作为至少一个处理单元的输入的视频中的空间特征和时间特征,联合视频中的空间特征和时间特征,并执行逐点卷积操作,输出视频的空间语义信息和时间语义信息。根据该申请所提供的技术方案,视频处理过程具有更强的对时空关系编码的能力,以较少数量的参数便能够提取出更有意义的特征,从而可以使用更紧凑的结构从数据集中学习更多有用的信息。在实施视频处理的过程中,仅需单个处理器就可处理之前需要多处理器处理的视频量
上述现有的行为识别方法包含对单个视频输入进行处理,从处理得到的时间和空间特征中得到预测结果,没有深入挖掘视频图像中更细节的空间特征信息。除此之外,有的方法使用多模态融合的方法使用相同结构的双流甚至多流模型并行处理的方式对全局特征进行表征,忽略了大量细粒度的局部信息。使用局部截取的方法强调识别对象局部来获取动态信息,在识别局部的同时忽略了全局信息和一些有用的细粒度信息。基于图像拼接和注意力机制的全局局部方法对局部信息进行了强调,但是局部的细粒度信息在特征提取之前在预处理的过程中已经损失。
发明内容
为了克服上述现有技术存在的缺陷,本发明的目的在于提供一种基于视频输入的双流全局-局部动作识别方法、系统、设备及存储介质,能够在学习视频中识别对象动作全局信息的同时注意到局部细粒度的特征信息,能够从局部截取操作获得的局部视频输入中获得识别对象局部细节信息,结合不同局部的特征获得更多的视频动态局部细粒度信息来获取更好的全局特征。
为了实现上述目的,本发明采用以下技术方案:
一种基于视频输入的双流全局-局部动作识别方法,具体包括以下步骤:
步骤1、采集内容为单个识别对象行动的视频输入,使用识别对象关键点识别方法将视频中的识别对象关键点提取并挑选提取的识别对象关键点,并根据关键点位置裁剪得到多个识别对象局部图像;对多个识别对象局部图像组成的多个局部视频输入和全局视频输入进行数据预处理工作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310070774.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可升降升降车铣主机
- 下一篇:水稻耐镉基因OsFWL7的应用