[发明专利]一种基于图像文本双通道联合的行人重识别方法有效
申请号: | 202011425821.1 | 申请日: | 2020-12-09 |
公开(公告)号: | CN114612927B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 何小海;齐宝光;刘强;陈洪刚;吴晓红;吴小强;滕奇志 | 申请(专利权)人: | 四川大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/52;G06V10/42;G06V10/44;G06V10/80;G06V10/82;G06F40/20;G06N3/044;G06N3/045;G06N3/0464;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 文本 双通道 联合 行人 识别 方法 | ||
本发明公开了一种基于图像文本双通道联合的行人重识别方法,使用文本通道对图像通道进行辅助学习完成行人重识别的任务。在图像通道设计了局部特征分支和全局特征分支,使用局部特征注意到更多的细节信息,比如非遮挡区域,使用全局特征加强网络对图像整体的关注力;在文本通道提取出文本特征计算ID损失,并且将其与图像的全局特征进行联合训练,计算三元组损失,以实现文本特征对视觉特征的辅助。最后得到能够提取出更多细节信息的重识别网络,测试时仅使用图像通道即可得到较优的检索结果,证明了文本特征对视觉特征辅助的有效性。该方法适用于智能安防领域和智慧商业领域,例如人员追踪、顾客轨迹分析、景区人流分析。
技术领域
本发明涉及一种基于图像文本双通道联合的行人重识别方法,属于计算机视觉与智能信息技术领域。
背景技术
2006年,Gheissari等人第一次提出了行人重识别的概念,其被当作跨摄像头多目标跟踪下的子问题进行研究,即如何在跨摄像头中利用行人特征的相似度进行轨迹关联。目前重识别的方法大都使用表征学习和度量学习。典型的重识别中通常使用全局特征表示行人特征表征,计算其ID损失,并通过度量特征之间的距离对行人进行排序。
在现实场景中,由于行人可能具有相似的外观,以及存在视角不同和遮挡的问题,导致检索的准确率并不高,为了提高模型性能,就要求行人重识别模型能够捕捉到充足的细节信息。然而基于全局特征的特征表征表现力有限,很难突出更具有价值的细节信息,面对遮挡、分辨率低等问题时检索效果通常不太理想,因此一些基于局部特征的方法被提出来解决这些问题。另外由于真实场景中,视角变化、配饰变化显著,需要更多额外的信息进行补充以实现对模型的优化,因此也有一些基于辅助学习的研究,比如属性信息辅助、文本信息辅助、视角信息辅助。但是属性信息通常不能像自然语言描述一样良好的覆盖整个图像信息,所以检索效果一般。另外目前数据集含有的多视角样本数量稀少,多视角建模比较困难,对视角信息的研究欠缺定量、稳定的分析手段。而文本描述覆盖了行人的整体信息,补充了视角变化和配饰变化的信息,表现出较好的性能。因此,为了在遮挡、视角变化、配饰变化等问题下,捕捉到更充足的细节信息,得到更可靠的特征表达,提出了图像文本双通道联合的行人重识别网络,将全局特征融合局部特征,并使用文本特征对全局特征进行辅助学习。
发明内容
本发明提出了一种基于图像文本双通道联合的行人重识别方法,目的在于设计一个图像文本双通道联合的网络,使用文本特征对视觉特征进行辅助训练,然后利用辅助优化过的视觉特征进行行人重识别。
本发明通过以下技术方案来实现上述目的:
(1)构建图像通道,使用Resnet50作为图像通道的骨架网络提取视觉特征,将骨架网络得到的最终特征分别送入全局特征分支和局部特征分支,提取全局特征和局部特征,最后对全局特征和局部特征分别计算ID Loss;
(2)构建文本通道,使用Simple Recurrent Units(SRU)作为文本通道的骨架网络提取文本特征,文本特征经过BN层归一化后用于ID损失的计算,并将图像通道的全局特征与文本特征共享ID Loss;
(3)将经过BN层前的文本特征与视觉特征进行Concat得到联合特征,并送入全连接层得到最后的融合特征,实现文本特征对视觉特征的辅助优化;
(4)联合多种任务的损失函数更新网络,利用局部特征增强图像通道对局部细节的关注度,使用文本特征辅助优化视觉特征,促进视觉特征学习到更多与文本特征互补的细节信息。不断训练迭代得到较优的模型,最终只使用图像通道进行检索。
附图说明
图1为本发明图像文本双通道联合的行人重识别方法框架图。
具体实施方式
下面结合附图对本发明作进一步说明:
构建图像通道的方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011425821.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:充放电装置及其输电方法
- 下一篇:一种导光装置及具有该导光装置的电子设备
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序