[发明专利]一种基于通道注意力机制的视频行人重识别方法及应用有效
申请号: | 202110158378.4 | 申请日: | 2021-02-05 |
公开(公告)号: | CN112836646B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 顾国强;丁长兴 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V20/40;G06V40/10;G06V10/82;G06V10/80;G06V10/74;G06V10/764;G06V10/774;G06N3/045;G06N3/0464;G06N3/048 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通道 注意力 机制 视频 行人 识别 方法 应用 | ||
本发明公开了一种基于通道注意力机制的视频行人重识别方法及应用,该方法步骤包括:视频采样图像进行预处理后输入到卷积神经网络,分别提取得到N个图像特征图,经时间池化得到临时视频级特征图;将临时视频级特征图输入到通道注意力模块,输出特征向量;将特征向量在高度和宽度上扩展填充,得到注意力矩阵,将注意力矩阵分别与原N个特征图逐元素相乘,得到被修饰的N个特征图;并依次经过时间、空间池化,得到视频级特征向量,加上分类器得到分类结果,对分类结果计算交叉熵损失,对整个模型训练优化;训练后的行人重识别模型进行行人重识别应用。本发明更好地融合图像级特征为视频级特征,增加视频级特征的表现力,提高视频行人重识别的性能。
技术领域
本发明涉及视频行人重识别技术领域,具体涉及一种基于通道注意力机制的视频行人重识别方法及应用。
背景技术
在公共安全视频监控建设联网应用中,海量的监控摄像头被安装在公共场所,譬如学校、医院、火车站、地铁站、机场等。公共安全视频监控的全域覆盖能够有效地保障人民群众的人身和财产安全。然而如何有效使用这些大量的公共安全监控视频是面临的另一个难题。传统的依靠肉眼去检索视频来匹配目标人物的方法往往浪费时间而且准确率较低,传统方法的执行人员也普遍感到心力交瘁,面对爆炸式增长的监控视频,使用机器高效准确地来匹配行人成为一种迫切的需求。得益于数字图像处理技术、大规模数据存储技术和计算机技术的进步,利用计算机进行行人匹配的方法——行人重识别渐渐成为主流。
行人重识别任务旨在匹配非重叠视域的不同相机中的行人,如假设1号摄像头和2号摄像头视域不重叠,当人物分别在1号摄像头和2号摄像头中出现之后,1号摄像头和2号摄像头各自收集到一段视频,此时若计算机将这两段视频匹配,即认为两者是同一个人,就完成了行人重识别,通过计算机实现行人匹配的方法准确快速而节约人力。
在基于视频的行人重识别研究中,主要的难题在于如何得到视频特征向量。一些方法利用光流,人体部件等先验知识,训练得到一个高斯混合模型用于提取视频特征;一些方法通过构建空间注意力机制对图像特征进行融合;还有一些方法使用递归神经网络来提取视频中的时序信息,帮助融合图像特征向量,得到视频特征向量;也有一些方法设计了图像质量系数生成模块用于评价每个图像特征的质量系数,然后依次将质量系数和对应的图像特征进行加权融合得到视频特征。例如2018年发表在国际视觉会议IEEE Conference onComputer Vision and Pattern Recognition上的《Video person re-identificationwith competitive snippet-similarity aggregation and co-attentive snippetembedding》,结合使用了LSTM和注意力模块计算每张图像的质量系数,然后将其作为子视频特征加权融合的依据,最后在子视频相似度的基础上计算完整视频的相似度。
现有技术的缺陷或不足:1、利用先验知识来辅助解决行人重识别问题往往受到数据集的限制,譬如在某些数据集中光流变化并不明显或者图像中的行人各部件并不完整。另外根据行人图像来获取行人各部件也依赖于在其他数据集上训练好的提取工具,因此提取工具也会制约行人各部件的获取效果。2、空间注意力机制往往利用各图像特征像素之间对应的相关性来作为融合依据,其粒度最小可达到图像特征图的空间大小,如16*8,24*12,时间注意力机制的粒度则往往更大,仅为一个采样视频中的帧数N(一般N=16),较大的粒度导致注意力机制对特征的修饰能力不强;3、现有的通道注意力机制还比较单调,如《Co-segmentation Inspired Attention Networks for Video-based Person Re-identification》直接将每个图像特征对应的通道注意力系数取平均,然后分配给每个原图像特征作哈达玛积。4、根据图像质量进行然后融合图像特征的做法,直接由每个图像特征计算得到质量系数,一方面融合的粒度在于帧数,粒度比空间注意力还大,另一方面,只通过图像本身而非视频中图像特征之间的比较求得的注意力系数,难以作为融合的依据。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110158378.4/2.html,转载请声明来源钻瓜专利网。