[发明专利]视频动作识别方法、装置、电子设备及存储介质在审
申请号: | 202010817688.8 | 申请日: | 2020-08-14 |
公开(公告)号: | CN112115788A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 曹中强 | 申请(专利权)人: | 咪咕文化科技有限公司;中国移动通信集团有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王宇杨 |
地址: | 100032*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 动作 识别 方法 装置 电子设备 存储 介质 | ||
本发明实施例提供一种视频动作识别方法、装置、电子设备及存储介质;方法包括:从目标视频帧序列中确定第一数据;将第一数据输入预先训练的第一识别模型,得到所述目标视频帧序列的第一识别结果;从所述目标视频帧序列中确定第二数据;将所述第二数据输入预先训练的第二识别模型,得到所述目标视频帧序列的第二识别结果;根据所述第一识别结果以及所述第二识别结果,确定所述目标视频帧序列中所包含动作的类别。本发明实施例通过第一识别模型提取待识别的视频帧序列的动作特征,通过第二识别模型提取待识别的视频帧序列的外观特征,通过两条路径提取特征的实现方式解耦了视频的空间特征与时序特征,有助于提升动作识别的准确率。
技术领域
本发明涉及视频技术领域,尤其涉及一种视频动作识别方法、装置、电子设备及存储介质。
背景技术
视频动作识别是当前计算机视觉领域热门且有很大挑战性的方向,在舆情监控、广告投放、公共安全等多个领域都有广泛的应用前景。与图像识别相比,由于视频的内容和背景更加复杂多变,通常导致视频动作识别的准确率不足,因此如何提供一种准确率更高的视频动作识别方法,是本申请所要解决的技术问题。
发明内容
本发明实施例提供一种视频动作识别方法、装置、电子设备及存储介质,用以解决现有技术中的视频动作识别方法准确率不足的缺陷。
本发明第一方面实施例提供一种视频动作识别方法,包括:
从目标视频帧序列中确定第一数据,所述第一数据是基于所述目标视频帧序列中的多个连续视频帧得到的;
将所述第一数据输入预先训练的第一识别模型,得到所述目标视频帧序列的第一识别结果;其中,所述第一识别模型用于识别动作特征;
从所述目标视频帧序列中确定第二数据,所述第二数据是基于所述多个连续视频帧中的单个视频帧得到的;
将所述第二数据输入预先训练的第二识别模型,得到所述目标视频帧序列的第二识别结果;其中,所述第二识别模型用于识别外观特征;
根据所述第一识别结果以及所述第二识别结果,确定所述目标视频帧序列中所包含动作的类别。
上述技术方案中,所述从目标视频帧序列中确定第一数据,包括:
从所述目标视频帧序列中选取多个连续的RGB帧;
为所述多个连续的RGB帧中的相邻RGB帧求差值,得到由多个相邻残差帧组成的堆叠残差帧;
根据所述堆叠残差帧,获取所述第一数据。
上述技术方案中,所述根据所述堆叠残差帧,获取所述第一数据,包括:
将所述堆叠残差帧作为所述第一数据;和/或,
对所述堆叠残差帧进行随机裁剪和随机水平翻转处理,并将处理结果作为所述第一数据。
上述技术方案中,所述第一识别模型是基于3D卷积神经网络训练得到的;和/或,
所述第二识别模型是基于2D卷积神经网络模型训练得到的。
上述技术方案中,所述3D卷积神经网络包括残差模块,所述残差模块包括最大池化层与卷积层。
上述技术方案中,所述根据所述第一识别结果以及所述第二识别结果,确定所述目标视频帧序列中所包含动作的类别,包括:
采用平均值融合方法将所述第一识别结果与第二识别结果进行融合,确定所述目标视频帧序列中所包含动作的类别。
上述技术方案中,方法还包括:
从样本视频帧序列中确定第三数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕文化科技有限公司;中国移动通信集团有限公司,未经咪咕文化科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010817688.8/2.html,转载请声明来源钻瓜专利网。