[发明专利]一种视频行为识别方法及系统有效
申请号: | 202010698476.2 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111881794B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 凌贺飞;陈遥;黄昌喜 | 申请(专利权)人: | 元神科技(杭州)有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06N3/0464;G06N3/084;G06N3/082 |
代理公司: | 武汉华之喻知识产权代理有限公司 42267 | 代理人: | 廖盈春;曹葆青 |
地址: | 311200 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 行为 识别 方法 系统 | ||
本发明提供一种视频行为识别方法及系统,其特征在于,包括:基于三维全分离卷积构建轻量级三维卷积神经网络模型;基于时序全局信息对、模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。本发明在保证视频行为识别准确率的前提下降低计算负载,不需要依赖卷积的叠加就能够直接建模全局信息,进一步提高准确率。
技术领域
本发明属于视频分析和深度学习领域,更具体地,涉及一种视频行为识别方法及系统。
背景技术
近年来,随着多媒体技术的发展和互联网的普及,视频图像等信息资源呈指数型增长,令人目不暇接。在这个信息爆炸的时代,计算机视觉应运而生,在医学图像处理、人机交互、智能机器人、智能安防等领域大放异彩,对视频图像进行智能分析已成为当今社会的迫切需求。在深度卷积神经网络的助力下,图像理解(Image Understanding)取得了显著的成功。值得注意的例子包括用于图像分类(Image Classification)的残差网络、用于对象检测的FastRCNN和用于语义分割的Deeplab。然而,用于视频分析的深度卷积神经网络的发展仍然滞后于图像分析,主要原因就是其额外的计算成本和时空输入的复杂性。
视频的时间维度包含有价值的运动信息,这些信息在视频行为识别任务中起着关键作用。目前一种流行且有效的识别方法就是在深层神经网络中使用时空卷积,也叫3D卷积学习视频特征。3D卷积是2D卷积(空间卷积)的一种扩展,额外增加了一个时间维度,因此可以沿时间轴进行卷积。通过将2D卷积神经网络中的2D卷积直接替换为3D卷积构造3D卷积神经网络,这样获得的模型是端到端可训练的。目前较为先进的视频行为识别模型,如Res3D和I3D都是以这种简单的方式构建3D卷积神经网络,在多个基准数据集上取得了较优的结果,但同时它们都伴随着极高的计算负载。尽管最近的一些方法使用分解的3D卷积或分组卷积降低3D卷积的计算成本,但在实际的大规模应用中使用3D卷积仍然令人望而却步。
另一方面,事实证明,通过分析视频中的长期依赖关系达到对视觉场景的全局理解有利于提高视频识别的准确率。在卷积神经网络中,由于卷积层只对局部相邻像素进行卷积,因此对全局信息的建模主要依靠于卷积层的层层堆叠。然而,过度叠加卷积层会导致计算效率低下以及优化困难的问题,最终造成全局信息建模失败。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于轻量级三维卷积神经网络的视频行为识别方法及系统,旨在解决现有视频识别中简单构建三维卷积神经网络导致计算负载较大,以及过度叠加卷积层会导致计算效率低下以及优化困难的问题。
为实现上述目的,第一方面,本发明提供了一种视频行为识别方法,包括如下步骤:
基于三维全分离卷积构建轻量级三维卷积神经网络模型;
基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
可选地,通过将时序全局信息模块加入轻量级三维卷积神经网络模型,以对模型进行优化;
所述时序全局信息模块的建模分为三个阶段:全局上下文建模、特征转换以及特征聚合;采用公式具体表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于元神科技(杭州)有限公司,未经元神科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010698476.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种门洞自动测量设备
- 下一篇:用于窄带通信的窄带时分双工帧结构