[发明专利]行为识别方法、装置、电子设备和存储介质在审
申请号: | 202011438565.X | 申请日: | 2020-12-07 |
公开(公告)号: | CN112597824A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 陈海波;罗志鹏;张治广 | 申请(专利权)人: | 深延科技(北京)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行为 识别 方法 装置 电子设备 存储 介质 | ||
本申请实施例涉及计算机视觉技术领域,提供了一种行为识别方法、装置、电子设备和存储介质,所述方法包括:通过将原始行为视频输入数据处理模块进行数据预处理,获取待识别行为视频集,将待识别行为视频集输入Slowfast网络模型获取第一行为识别结果,以及将待识别行为视频集输入TSM网络模型获取第二行为识别结果,基于第一行为识别结果和第二行为识别结果,获取原始行为视频的识别结果。本申请将Slowfast网络的识别结果和TSM网络的识别结果进行融合,考虑了空间信息和时域信息的影响,提高了行为识别结果的精度。
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种行为识别方法、装置、电子设备和存储介质。
背景技术
当前人体行为识别主要应用在型人机交互、运动分析、智能监控和虚拟现实领域,由于人的运动的复杂性和对外部环境的多变性,使得行为识别和检测具有一些挑战。
现有技术中行为识别的方法包括:通过建库和识别两个阶段完成对视频中人体行为的识别,其中建库阶段包括:首先采集视频,计算出视频一帧人物图像的直方图向量,然后对直方图向量进行归一化处理,对归一化后的各类直方图向量求熵,将得到的多个熵组合成一熵向量,最后对其定义,完成建立人体动作特征模板库;识别阶段包括:首先采集视频,再根据建库的方法求出一段视频的熵向量,然后与模板库进行匹配,找出最模板库中最匹配的熵向量,其对应的定义为该段视频的动作类型,但该方法行为识别的精度较低。
发明内容
本申请提供一种行为识别方法、装置、电子设备和存储介质,以实现获取高精度的行为识别结果。
本申请提供一种行为识别方法,包括:
对原始行为视频进行数据预处理,获取待识别行为视频集;
将所述待识别行为视频集输入Slowfast网络模型,获取第一行为识别结果;
将所述待识别行为视频集输入TSM网络模型,获取第二行为识别结果;
基于所述第一行为识别结果和所述第二行为识别结果,获取所述原始行为视频的识别结果;
其中,所述Slowfast网络模型和所述TSM网络模型是基于待识别样本行为视频集和待识别样本行为视频集的行为识别结果训练得到,所述待识别样本行为视频集是基于对原始样本行为视频进行数据预处理后得到。
根据本申请提供的一种行为识别方法,对原始行为视频进行数据预处理,获取待识别行为视频集,包括:对所述原始行为视频依次进行视频长度处理、视频模式处理以及数据增强处理;
所述视频长度处理包括:若判断所述原始行为视频的长度大于预设值,则以预设值作为长度对所述原始行为视频进行采样;若判断所述原始行为视频的长度小于预设值,则基于视频插值将所述原始行为视频的长度填充至预设值;
所述视频模式处理包括:在经过所述视频长度处理后,分别获取原始行为视频的RGB视频和帧差视频;
所述数据增强处理包括:分别对所述RGB视频和所述帧差视频进行数据增强,所述数据增强包括镜像翻转、视频倒放、视频裁剪以及视频拼接中的一种或多种。
根据本申请提供的一种行为识别方法,将所述待识别行为视频集输入Slowfast网络模型,获取第一行为识别结果,包括:
将所述待识别行为视频集输入Slowfast网络模型,获取若干组Slowfast网络识别结果,并将所述若干组Slowfast网络识别结果的平均值作为所述第一行为识别结果。
根据本申请提供的一种行为识别方法,所述Slowfast网络模型包括Non-local模块和时空注意力模块,所述Slowfast网络模型以ELU函数作为激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深延科技(北京)有限公司,未经深延科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011438565.X/2.html,转载请声明来源钻瓜专利网。