[发明专利]基于GAN神经网络的行人重识别系统及方法在审
申请号: | 201910208515.3 | 申请日: | 2019-03-19 |
公开(公告)号: | CN110084108A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 高明柯;杜欣军;周燕琼;房家骥;王熠;邵培南;白利娟;夏定江;于楠 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06N3/04 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201800 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像重建 神经网络 生成图像 识别系统 视频 高分辨率图像 直方图提取 低分辨率 距离度量 提取图像 图像生成 网络判断 纹理特征 信息检索 颜色特征 重新生成 鲁棒性 原图像 降维 网络 图像 监控 应用 | ||
1.一种基于GAN神经网络的行人重识别系统,其特征在于,包括图像重建与增强模块、行人重识别模块;
所述图像重建与增强模块能够生成网络、判别网络与损失函数计算以及对重建好的图像进行增强;
所述行人重识别模块能够对所述图像重建与增强模块获得的增强图片进行行人重识别。
2.根据权利要求1所述的基于GAN神经网络的行人重识别系统,其特征是,所述生成网络包含多个残差块,每个残差块中包含两个3×3的卷积层,卷积层后连接批规范化层,选取PReLU作为激活函数,再连接两个亚像素卷积层用来增大特征尺寸。
3.根据权利要求1所述的基于GAN神经网络的行人重识别系统,其特征是,所述判别网络包含8个卷积层,随着网络层数加深,特征个数不断增加,特征尺寸不断减小,选取LeakyReLU作为激活函数,最终通过两个全连接层和sigmoid激活函数得到预测为原图像的概率。
4.根据权利要求3所述的基于GAN神经网络的行人重识别系统,其特征是,所述判别网络判断获取的是生成图像还是原图像,若为生成图像,则重新生成,直到判别网络无法区分,则完成图像重建。
5.根据权利要求1所述的基于GAN神经网络的行人重识别系统,其特征是,所述损失函数计算包括对内容损失和对抗损失采用不同权重进行加权计算,所述内容损失为生成图像和原图像之间的欧氏距离,所述对抗损失用来生成让判别器无法区分的数据分布。
6.根据权利要求5所述的基于GAN神经网络的行人重识别系统,其特征是,所述内容损失包括像素空间的最小均方差Mseloss和以预训练19层Vgg网络的ReLU激活层为基础求生成图像和原图像特征之间的欧氏距离Vggloss。
7.根据权利要求1所述的基于GAN神经网络的行人重识别系统,其特征是,所述图像重建与增强模块使用Retinex algorithm算法进行图像增强。
8.根据权利要求7所述的基于GAN神经网络的行人重识别系统,其特征是,所述Retinexalgorithm算法首先根据像素的R、G、B分量将输入的彩色图像分解为三幅图像,代表场景中波长不同的反射光的强度;分别计算长波、中波和短波波段内像素间的相对明暗关系,进而确定每个像素的色彩,最后将Retinex色度空间内的色彩线性映射到RGB空间,获得增强图像。
9.根据权利要求1所述的基于GAN神经网络的行人重识别系统,其特征是,行人重识别模块首先在图像重建与增强的基础上用HSV直方图提取颜色特征,用SILTP提取纹理特征,再提取图像LOMO特征,最后通过XQDA方法对空间进行降维,并使用距离度量进行行人重识别。
10.一种基于GAN神经网络的行人重识别方法,其特征在于,包括如下步骤:
步骤1,构建生成网络:
生成网络部分包含多个残差块,每个残差块中包含两个3×3的卷积层,卷积层后连接批规范化层,选取PReLU作为激活函数,再连接两个亚像素卷积层用来增大特征尺寸;
步骤2,构建判别网络:
判别网络部分包含8个卷积层,随着网络层数加深,特征个数不断增加,特征尺寸不断减小,选取LeakyReLU作为激活函数,最终通过两个全连接层和sigmoid激活函数得到预测为原图像的概率;
步骤3,损失函数计算:
损失包括两部分:超分辨率图像(SR)的内容损失的加权和生成器(Gen)的对抗损失
其中X表示一组高分辨率图像和低分辨率图像。
内容损失表示生成图像和原图像之间的欧氏距离,包括Mse loss和Vgg loss;
Mse loss表示像素空间的最小均方差:
其中,x、y表示图像坐标点;r表示采样因子;W表示低分辨率(LR)图像ILR的宽度;H表示低分辨率图像的高度;rW与rH分别表示r倍的低分辨率图像ILR的宽度与高度;IHR表示高分辨率图像,即原图像;GθG(ILR)x,y为生成网络合成的高分辨率图;GθG表示生成器,θG表示L层深度网络的权重和偏置;
Vgg loss:以预训练19层Vgg网络的ReLU激活层为基础,求生成图像和原图像特征之间的欧氏距离,在已经训练好的Vgg上提取某一层的feature map,将生成图像当前层的feature map和原图像所对应的feature map进行比较:
其中,Wi,j和Hi,j描述VGG网络内各个特征图的尺寸;i,j表示第i次最大化pooling层后的第j次卷积;φ对应VGG网络中间某卷积层经过激活函数后输出的特征图,φi,j(IHR)x,y表示高分辨率图像的特征图,φi,j(GθG(ILR))x,y表示生成网络合成图像的特征图,该损失函数能反映更高感知层次上的误差,而均方误差损失项只能反映低层次的像素点间的误差,因此VGG损失项又称为感知损失项;
对抗损失用来生成让判别器无法区分的数据分布:
其中,DθD为判别器,θD为判别器的权重,取决于候选样本来自数据分布的概率;DθD(GθG(ILR))表示的是判别器将生成图像预测为原图像的概率;N为样本数量;
步骤4,使用Retinex algorithm进行图像增强:
首先根据像素的R、G、B分量将输入的彩色图像分解为三幅图像,代表场景中波长不同的反射光的强度;分别计算长波、中波和短波波段内像素间的相对明暗关系,进而确定每个像素的色彩,最后,将Retinex色度空间内的色彩线性映射到RGB空间,获得增强图像;
步骤5,特征提取:
在步骤1-4进行图像重建和增强的基础上,用HSV直方图提取颜色特征,用SILTP提取纹理特征;
步骤6,LOMO提取特征:
对原始图像进行两次2×2 average pooling的降采样,对三个图像均采用LOMO提取特征,然后将三个图像的特征拼接成一个特征向量,最后针对特征向量中的特大值采用log变换进行抑制,之后再归一化到单位大小;
步骤7,采用XQDA方法对空间进行降维和距离度量:
令Δ=xi-xj表示2个样本之间的特征差异,P为高斯分布,P(Δ|ΩI)为同类样本之间的差异Δ符合类内差异ΩI的高斯分布,P(Δ|ΩE)为异类样本之间的差异Δ符合类间差异ΩE的高斯分布,并且均值都为0:
其中,T为矩阵转置,d(xi-xj)为距离函数,∑E和∑I分别是相似样本对集和不相似样本对集样本的协方差矩阵;f(Δ)表示2个样本之间的距离,若大于0,则表示很大概率上不是同类;
XQDA方法将特征主成分分析和相似性学习同时进行,通过学习映射矩阵W∈Rd×r(r<d),将原始特征xi,xj∈Rd映射到多维子空间,实现特征降维,提高特征匹配的准确性,其中矩阵W由主成分分析的前r个最大特征值对应的特征向量构成,d表示维度,因此,公式(6)中定义的距离函数换转换为:
f(Δ)=(x-z)TW(∑′I-1-∑′E-1)WT(x-z) (7)
其中,T为矩阵转置,∑′I-1=WT∑IW,表示不相似样本对集样本的协方差矩阵,∑′E-1=WT∑EW,表示相似样本对集的协方差矩阵;x是一个视角的样本点,z是另一个视角的样本点;
步骤8:输出识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910208515.3/1.html,转载请声明来源钻瓜专利网。