[发明专利]一种基于视频的外观和运动信息同步增强的行人重识别方法有效
申请号: | 202010038990.3 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111259786B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 于慧敏;李殊昭 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 外观 运动 信息 同步 增强 行人 识别 方法 | ||
本发明公开了一种基于视频的外观和运动信息同步增强的行人重识别方法,训练时通过外观增强模块AEM、运动增强模块MEM两个模块分别增强主干网络中的行人外观和运动信息。外观增强模块AEM利用现有的大规模行人属性数据集训练得到的属性识别模型,为大规模行人视频数据集提供了属性伪标签,通过属性学习增强外观及语义信息;运动增强模块MEM通过利用视频预测模型预测行人步态信息,增强行人特征提取主干网络中的具有身份判别力的步态信息特征,提升行人重识别性能。实际应用时仅需保留行人特征提取主干网络,无需增加网络复杂度和模型大小,就能够获得更高的行人重识别性能。增强后的主干网络特征在基于视频的行人重识别任务中获得了更高的准确率。
技术领域
本发明属于智能识别技术领域,特别地涉及一种基于视频的外观和运动信息同步增强的行人重识别方法。在算法设计和模型训练部分涉及了深度学习技术。
背景技术
行人重识别的任务是在于摄像机A不存在重叠区域的摄像机B中,对行人目标进行检索,重新找到在摄像机A中出现的行人目标。作为当前重要的研究方向和研究热点,行人重识别在智能监控、智慧城市、治安防治和刑侦等领域都有着广泛的应用,例如跨摄像机的行人跟踪与行为分析,嫌疑或感兴趣人员的图片检索与查询等。
随着深度学习的迅速发展,越来越多的研究者采用深度神经网络来解决行人重识别的问题。而当前研究较多并且获得较高性能的主要集中于基于静态图片的行人重识别领域,它基于一张框选并截取出的静态行人图片进行特征提取,然后在候选集中进行特征匹配和相似度排序,完成检索重识别的任务。然而基于静态图片的行人重识别有较多局限性。第一,单张静态图片对于姿态变化、遮挡等影响因素非常敏感,第二,每个人的行走特性和步态都具有其身份独特性,使用单张静态图片无法捕捉到这种具有身份识别特性的步态特征。因此,越来越多的人开始将关注点放到基于视频的行人重识别方向中来。
利用视频数据作为研究对象主要有以下几个优势。第一,视频数据更易从视频监控中获取,也更符合实际应用的场景;第二,视频数据中的多张图片能够较好的应对姿态变化、遮挡、光照等带来的影响;最后,视频中包含丰富的外观和运动信息,能够从多个方面提取具有身份判别力的信息,例如行人的行走步态特征。
当前基于视频的行人重识别算法主要分为两大类,一类是将视频看做多张图片,即基于多图片的算法,另一类是直接对视频数据进行处理,即基于视频的算法。对于基于多图片的算法,主要利用了注意力模型来完成多张图片特征融合为整个视频序列层级特征的过程。利用注意力模型给每张图片分配一个重要性得分,根据重要性得分将多张图片进行加权组合,获得最终的特征。这类方法易于实现、占用时间和内存相对较少,然而却忽略了视频数据所能够提供的最重要的信息,即运动信息。对于基于视频的算法,很多视频分析的通用结构都被集成到了行人重识别系统中,例如光流学习,3D卷积神经网络,RNN等等。尽管这些对于时序特征提取和动作识别都有着较强的能力,但是由于行人重识别数据中仅包含一类运动类别,即行走,此时行走模式和步态中的微小差别如果没有对网络的特别设计,则很难很好的进行特征提取。近年来较为流行的步态识别虽然能够依据步态识别身份,但是其对于输入数据有着极高的处理要求,如干净的背景、序列对齐、行人轮廓分割提取等等,这些在复杂的实际监控场景下都难以实现。而针对行人重识别任务中来源于实际监控场景采样的图片,由于复杂的背景、行人检测算法的失误等因素,几乎难以将现有的步态识别算法直接应用到行人重识别任务中去。
此外,现有的特征提取网络,无论是基于多张图片还是视频序列,都能够较好的完成行人外观信息的提取,然而这些信息依然缺少明确的语义特性,同时一些重要的线索也可能因此而被忽略。而人体属性学习在近年来已被证明对于行人重识别任务中外观信息和中层语义信息的提取有着极大的帮助。然而大部分相关工作都仅基于单静态图片而非视频数据。主要的原因有以下两个方面,第一,有些属性由于遮挡和姿态的变化可能仅出现在特定帧中,因此如何定义视频序列级别的属性标签较为困难;第二,现在还没有大规模的基于视频的行人数据集包含属性标签,利用人工标注将会耗费巨大的人力财力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038990.3/2.html,转载请声明来源钻瓜专利网。