[发明专利]一种视频行为识别方法及系统有效
申请号: | 202010698476.2 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111881794B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 凌贺飞;陈遥;黄昌喜 | 申请(专利权)人: | 元神科技(杭州)有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06N3/0464;G06N3/084;G06N3/082 |
代理公司: | 武汉华之喻知识产权代理有限公司 42267 | 代理人: | 廖盈春;曹葆青 |
地址: | 311200 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 行为 识别 方法 系统 | ||
1.一种视频行为识别方法,其特征在于,包括如下步骤:
基于三维全分离卷积构建轻量级三维卷积神经网络模型;
基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
2.根据权利要求1所述的视频行为识别方法,其特征在于,通过将时序全局信息模块加入轻量级三维卷积神经网络模型,以对模型进行优化;
所述时序全局信息模块的建模分为三个阶段:全局上下文建模、特征转换以及特征聚合;采用公式具体表示为:
其中,x表示时序全局信息模块的输入,y表示时序全局信息模块的输出,表示全局上下文建模,全局上下文建模采用权重为Ca的加权平均聚合输入特征以获得全局上下文特征,Cc×RELU(LN(Cb×(·)))代表特征转换,特征聚合阶段采用的是广播逐元素加法,Cb表示特征转换中的权重1,Cc表示特征转换中的权重2,xk表示第k维特征,xj表示第j维特征,H表示输入特征的高,W表示输入特征的宽。
3.根据权利要求1所述的视频行为识别方法,其特征在于,所述三维全分离卷积包括三维深度空间卷积、三维深度时间卷积以及三维逐点卷积。
4.根据权利要求3所述的视频行为识别方法,其特征在于,基于三维全分离卷积构建第一基本单元和第二基本单元,第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同,第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸;将第一基本单元和第二基本单元基于ResNet的框架进行堆叠,得到轻量级三维卷积神经网络模型;
所述第一基本单元和第二基本单元均借鉴ShuffleNet v2基于三维深度空间卷积、三维深度时间卷积以及三维逐点卷积构建,以在不增加参数的情况下实现通道之间信息共享。
5.根据权利要求1至4任一项所述的视频行为识别方法,其特征在于,将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,包括如下步骤:
对待识别的视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列;
将裁剪得到的视频序列输入到训练好的轻量级三维卷积神经网络模型。
6.一种视频行为识别系统,其特征在于,包括:
模型确定单元,用于基于三维全分离卷积构建轻量级三维卷积神经网络模型;
模型优化单元,用于基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
模型训练单元,用于通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
视频识别单元,用于将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于元神科技(杭州)有限公司,未经元神科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010698476.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种门洞自动测量设备
- 下一篇:用于窄带通信的窄带时分双工帧结构