[发明专利]一种基于无监督跨模态的行人重识别方法在审
申请号: | 202210084577.X | 申请日: | 2022-01-25 |
公开(公告)号: | CN114495004A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 潘春燕;洪培衔;吴岸聪;郑伟诗 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/44;G06V10/75;G06V10/762;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 跨模态 行人 识别 方法 | ||
1.一种基于无监督跨模态的行人重识别方法,其特征在于,包括以下步骤:
S1、使用具有跨模态标签的源数据集预训练一个局部特征提取网络;
S2、构建单模态聚类跨模态匹配框架,框架包括三个网络,其中两个网络负责不同模态图片,学习模态特定的特征,另一个网络负责混合模态的图片,学习模态共享的特征,使用训练好的局部特征提取网络及其参数初始化单模态聚类跨模态匹配框架的三个网络;
S3、使用负责单模态的网络提取模态特定的特征用于单模态聚类;
S4、使用负责混合模态的网络输出模态共享的特征计算聚类中心,并进行不同模态聚类的匹配和融合,得到新的伪类标;
S5、利用得到的伪类标,使用三元组损失对三个网络同时进行有监督训练,训练迭代多代;
S6、返回并执行步骤S3,利用当前最新的网络重新单模态聚类,再通过步骤S4重新匹配和融合得到新的伪类标,再进行步骤S5和步骤S6,重复步骤S3至S6直至达到停止条件;
S7、将最终得到的单模态聚类跨模态匹配框架用于实际的行人中识别。
2.根据权利要求1所述的一种基于无监督跨模态的行人重识别方法,其特征在于,步骤S1中,局部特征提取网络采用卷积神经网络模型Resnet50,输入图像经过局部特征提取网络的所有卷积层后,利用最后一层得到的特征图按垂直方向进行分块,作为局部特征信息,使用该局部特征信息进行分类及损失的计算,指导网络学习到具有判别性的局部特征信息。
3.根据权利要求1所述的一种基于无监督跨模态的行人重识别方法,其特征在于,单模态聚类跨模态匹配框架的三个网络具体为:仅输入可见光图片的可见光模态网络FR、仅输入近红外图片的近红外模态网络FI以及同时输入可见光和近红外图片的混合模态网络FM。
4.根据权利要求1所述的一种基于无监督跨模态的行人重识别方法,其特征在于,步骤S1的预训练具体为:
源数据集的图像经过局部特征提取网络Fp,在Fp得到的最后一层的特征图上按垂直方向进行分块,分成6块,原始特征图的维度是h×w×c,其中h为高,w为宽,c为通道数,每一块的维度因此是h/6×w×c,每一个分块接着平均池化为一个维度为c的特征,得到6个维度为c的特征,每一个分块的特征接着都送入各自对应的分类器中,即有6个不同的分类器,最终得到6个分块的输出的类别概率,第i个分块的输出的第j类的概率公式如下:
其中,Wi表示第i个分块对应的分类器,即一个全连接层,则代表分类器全连接层的转置后的矩阵的第k行,n表示行人类别的个数,表示网络Fp的第i个分类器;
该公式表示对每一个分类器输出的值做softmax得到分类概率,基于该公式,接着使用交叉熵函数,第i个分块的交叉熵函数写为:
其中,当且仅当输入样本属于第j类时yj为1,否则yj为0;最终的分块损失函数为所有分块交叉熵的和:
同时,为了减少模态差异,将不同模态的特征都嵌入到同一个空间中,在特征分布上减少不同模态分布的差异,获得模态共享的特征,从而提高跨模态检索的效果,对相同行人不同模态的图片的特征直接进行拉近,即优化目标为:
其中,表示源数据集第i个行人的可见光图片,表示源数据集第i个行人的近红外图片,Fp代表分块预训练网络;通过优化该目标,使得相同的行人不同模态的特征得以逐渐相同,分布逐渐相似;
运用网络的中间层特征进行模态分布的拉近,最终的模态分布拉近的损失函数为:
其中,b代表每一个数据批次中的样本数目,Fp,i代表网络输出的第i层的特征,总共有4层;
为实现这样的模态拉近的方式,使用特殊的数据批采样方式,具体为:
对每一个数据批,随机采样p个行人ID,每一个ID随机采样I/2张可见光图片以及I/2张近红外图片,通过该采样方式,在一个数据批内直接拉近相同行人不同模态图片的特征;
优化Lmc,拉近不同模态之间的分布;
在源数据集上训练预训练网络的预训练总体损失函数为:
Lpre=Lce+λmcLmc
其中,λmc是模态拉近损失函数Lmc的权重;利用该总体损失函数,在有标签的源数据集上进行有监督训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210084577.X/1.html,转载请声明来源钻瓜专利网。