[发明专利]动作识别方法以及装置在审
申请号: | 202210962950.7 | 申请日: | 2022-08-11 |
公开(公告)号: | CN115294499A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 武文琦 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06N3/04;G06N3/08;G06V10/764;G06V10/80;G06V10/82;G06V40/20 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 赵杰 |
地址: | 310013 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动作 识别 方法 以及 装置 | ||
本说明书实施例提供动作识别方法以及装置,其中所述动作识别方法包括:将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作,通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量,通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种动作识别方法。本说明书一个或者多个实施例同时涉及一种动作识别装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
目前在很多场景下,都需要对视频中目标对象(例如人物)的动作进行识别,以确定人物动作的动作类型。例如,在公共场所中,为了避免翻爬、斗殴、违规操作等危害个人及公共安全的恶性事件发生,需要对公共场所获取的视频中的人物动作进行识别。例如,在人机交互系统中,为了对人的行为进行理解,需要对人机交互系统获取的视频中的人物动作进行识别。
为了实现对视频中的人物动作的识别,目前多是基于二维姿态估计的动作识别和基于三维姿态估计的动作识别。在基于二维姿态估计的动作识别过程中,由于缺乏人物姿态的深度信息,使得该方法得到的动作识别准确性较低;而在基于三维姿态估计的动作识别过程中,考虑了人物姿态的深度信息,但该方法对计算资源有限及对实时性要求较高的动作识别场景,其在保证姿态估计及动作识别准确性的条件下,无法有效应用。因此,亟需一种有效的方法以解决此类问题。
发明内容
有鉴于此,本说明书实施例提供了一种动作识别方法。本说明书一个或者多个实施例同时涉及一种动作识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种动作识别方法,包括:
将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作;
通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量;
通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
根据本说明书实施例的第二方面,提供了一种动作识别装置,包括:
输入模块,被配置为将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作;
处理模块,被配置为通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量;
输出模块,被配置为通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现所述动作识别方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述动作识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210962950.7/2.html,转载请声明来源钻瓜专利网。