[发明专利]一种基于多时间尺度卷积神经网络的视频行人再识别方法有效

申请号：	201910013082.6	申请日：	2019-01-07
公开（公告）号：	CN109886090B	公开（公告）日：	2020-12-04
发明（设计）人：	张史梁;李佳宁;黄铁军	申请（专利权）人：	北京大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	刘广达
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多时尺度卷积神经网络视频行人识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于多时间尺度卷积神经网络的视频行人再识别方法，包括：利用多时间尺度卷积神经网络模型处理视频，获得具有空间特征和多尺度时间特征的第一输出，其中，所述多时间尺度卷积神经网络由在空间卷积神经网络中插入多尺度的3D卷积层和残差注意力层获得；利用空间卷积神经网络模型处理所述视频，获得具有空间特征的第二输出；将所述第一输出和所述第二输出进行融合；根据融合结果，对所述视频中的行人进行步态识别和/或空间特征识别。本发明实现了对视频中行人的空间特征(衣着)以及步态的识别，具有更高的识别率。与2D神经网络相比，获取了多尺度的时间线索；与3D神经网路相比，引入的参数容量更小，在相同系统中的运行速度更快。

技术领域

本发明涉及卷积神经网络的构建与应用领域，特别的涉及了一种基于多时间尺度卷积神经网络的视频行人再识别方法。

背景技术

目前关于行人的重新识别(ReID)的研究主要是关注于视觉序列和视频信息。最近几年见证了基于图像人物的行人识别的发展，例如，通过基于图像数据中行人的行为表现形式的深度研究(Li，Zhu和Gong 2018b；Xu等人2018；Liu等人2018b；Su等人2016；2015)。由于能够探索大量的空间和时间线索，相比与基于图像行人表现的研究基于视频的人ReID具有更好的潜力来解决基于图像的行人识别中的一些挑战。如图4所示，单独观察视觉很难识别两个穿着视觉上相似的人。但是，他们却可以通过步态线索轻松区分。因此，基于视频的行人识别还可以利用基于图像的行人识别的最新进展。如图5中的两个人显示出类似的步态线索，但可以通过他们的空间和外观来区分。

最近，3D卷积神经网络(ConvolutionalNeuralNetworkCNN)中引入了空间-时间概念，用于表示视频中的其他任务，如动作识别(Carreira和Zisserm an 2017；Qiu，Yao和Mei2017；Tran et al.2018)。其方法是通过在空间和时间维度上的滑动卷积核，3DCNN对视觉外观和时间跨越连续帧进行编码。其性能的提升已经在多个研究中进行了报道(Carreiraand Zisserman 2017；Tra n等人2015；Ji等人2013)。但是由于单个3D卷积内核只能覆盖短暂的时间，研究人员通常会将几个3D卷积核整合在一起以获得更强的时间线索的学习能力。尽管其表现出更好的性能，但堆叠的3D卷积核导致参数的大幅增长，例如，广泛使用的C3D(Tran等人2015)网络达到的模型大小为321MB，但仅有8个3D卷积层，几乎是ResNet50(Heetal.2016)的95.795个参数的3倍。多多的参数不仅使得3D卷积网络的计算成本昂贵，还会也导致模型训练和优化的困难。这使得3D卷积网络不容易适用于基于视频的行人识别，因为，其训练集通常很小并且对行人的注释是昂贵的。

发明内容

本发明的目的是通过以下技术方案实现的一种基于多时间尺度卷积神经网络的视频行人再识别方法，其特征在于，包括：利用多时间尺度卷积神经网络模型处理视频，获得具有空间特征和多尺度时间特征的第一输出，其中，所述多时间尺度卷积神经网络由在空间卷积神经网络中插入多尺度的3D卷积层和残差注意力层获得；利用空间卷积神经网络模型处理所述视频，获得具有空间特征的第二输出；将所述第一输出和所述第二输出进行融合；根据融合结果，对所述视频中的行人进行步态识别。

进一步的，所述多时间尺度卷积神经网络包括多个顺序连接的复合神经元，每个复合神经元具体包括：顺序连接的3D卷积层、至少一个残差注意力块以及残差注意力层；其中，所述3D卷积层用于插入多尺度的时间线索；所述至少一个残差注意力块为具有空间特征的2D神经元；所述残差注意力层用于获得时间-空间关注掩模；相邻的复合神经元之间通过残差注意力层和3D卷积层连接。

更进一步的，所述多时间尺度卷积神经网络还包括：与所述顺序连接的复合神经元的输入端和输出端分别连接的两个平均池化层；其中，所述两个平均池化层分别用于聚集帧特征和时间特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910013082.6/2.html，转载请声明来源钻瓜专利网。

上一篇：掌纹识别方法、装置和计算机设备
下一篇：基于带权重局部旋度模式的三维人脸表情识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多时间尺度卷积神经网络的视频行人再识别方法有效

专利文献下载