[发明专利]一种基于多时间尺度卷积神经网络的视频行人再识别方法有效
申请号: | 201910013082.6 | 申请日: | 2019-01-07 |
公开(公告)号: | CN109886090B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 张史梁;李佳宁;黄铁军 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多时 尺度 卷积 神经网络 视频 行人 识别 方法 | ||
一种基于多时间尺度卷积神经网络的视频行人再识别方法,包括:利用多时间尺度卷积神经网络模型处理视频,获得具有空间特征和多尺度时间特征的第一输出,其中,所述多时间尺度卷积神经网络由在空间卷积神经网络中插入多尺度的3D卷积层和残差注意力层获得;利用空间卷积神经网络模型处理所述视频,获得具有空间特征的第二输出;将所述第一输出和所述第二输出进行融合;根据融合结果,对所述视频中的行人进行步态识别和/或空间特征识别。本发明实现了对视频中行人的空间特征(衣着)以及步态的识别,具有更高的识别率。与2D神经网络相比,获取了多尺度的时间线索;与3D神经网路相比,引入的参数容量更小,在相同系统中的运行速度更快。
技术领域
本发明涉及卷积神经网络的构建与应用领域,特别的涉及了一种基于多时间尺度卷积神经网络的视频行人再识别方法。
背景技术
目前关于行人的重新识别(ReID)的研究主要是关注于视觉序列和视频信息。最近几年见证了基于图像人物的行人识别的发展,例如,通过基于图像数据中行人的行为表现形式的深度研究(Li,Zhu和Gong 2018b;Xu等人2018;Liu等人2018b;Su等人2016;2015)。由于能够探索大量的空间和时间线索,相比与基于图像行人表现的研究基于视频的人ReID具有更好的潜力来解决基于图像的行人识别中的一些挑战。如图4所示,单独观察视觉很难识别两个穿着视觉上相似的人。但是,他们却可以通过步态线索轻松区分。因此,基于视频的行人识别还可以利用基于图像的行人识别的最新进展。如图5中的两个人显示出类似的步态线索,但可以通过他们的空间和外观来区分。
最近,3D卷积神经网络(ConvolutionalNeuralNetworkCNN)中引入了空间-时间概念,用于表示视频中的其他任务,如动作识别(Carreira和Zisserm an 2017;Qiu,Yao和Mei2017;Tran et al.2018)。其方法是通过在空间和时间维度上的滑动卷积核,3DCNN对视觉外观和时间跨越连续帧进行编码。其性能的提升已经在多个研究中进行了报道(Carreiraand Zisserman 2017;Tra n等人2015;Ji等人2013)。但是由于单个3D卷积内核只能覆盖短暂的时间,研究人员通常会将几个3D卷积核整合在一起以获得更强的时间线索的学习能力。尽管其表现出更好的性能,但堆叠的3D卷积核导致参数的大幅增长,例如,广泛使用的C3D(Tran等人2015)网络达到的模型大小为321MB,但仅有8个3D卷积层,几乎是ResNet50(Heetal.2016)的95.795个参数的3倍。多多的参数不仅使得3D卷积网络的计算成本昂贵,还会也导致模型训练和优化的困难。这使得3D卷积网络不容易适用于基于视频的行人识别,因为,其训练集通常很小并且对行人的注释是昂贵的。
发明内容
本发明的目的是通过以下技术方案实现的一种基于多时间尺度卷积神经网络的视频行人再识别方法,其特征在于,包括:利用多时间尺度卷积神经网络模型处理视频,获得具有空间特征和多尺度时间特征的第一输出,其中,所述多时间尺度卷积神经网络由在空间卷积神经网络中插入多尺度的3D卷积层和残差注意力层获得;利用空间卷积神经网络模型处理所述视频,获得具有空间特征的第二输出;将所述第一输出和所述第二输出进行融合;根据融合结果,对所述视频中的行人进行步态识别。
进一步的,所述多时间尺度卷积神经网络包括多个顺序连接的复合神经元,每个复合神经元具体包括:顺序连接的3D卷积层、至少一个残差注意力块以及残差注意力层;其中,所述3D卷积层用于插入多尺度的时间线索;所述至少一个残差注意力块为具有空间特征的2D神经元;所述残差注意力层用于获得时间-空间关注掩模;相邻的复合神经元之间通过残差注意力层和3D卷积层连接。
更进一步的,所述多时间尺度卷积神经网络还包括:与所述顺序连接的复合神经元的输入端和输出端分别连接的两个平均池化层;其中,所述两个平均池化层分别用于聚集帧特征和时间特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910013082.6/2.html,转载请声明来源钻瓜专利网。