[发明专利]基于多任务深度学习的修正局部敏感哈希车辆检索方法有效

申请号：	201711135951.X	申请日：	2017-11-16
公开（公告）号：	CN108108657B	公开（公告）日：	2020-10-30
发明（设计）人：	何霞;汤一平;陈朋;王丽冉;袁公萍;金宇杰	申请（专利权）人：	浙江工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06F16/31
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于任务深度学习修正局部敏感车辆检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多任务深度学习的修正局部敏感哈希车辆检索方法，其特征在于，包括以下步骤：

1)构建用于深度学习和训练识别的多任务端到端的卷积神经网络，训练数据和逐层递进的网络结构深入地学习车辆各种属性信息，包括车型、车系、车标、颜色和车牌；

2)利用步骤1)的多任务卷积神经网络采用分段并行学习和编码策略构建车辆属性哈希码；

3)利用金字塔池化层和向量压缩层构建特征金字塔模块，以适应不同尺寸的卷积特征图输入提取车辆的实例特征；

4)利用步骤3)得到的实例特征构建局部敏感再排序算法；

5)构建在无法获取检索车辆图像情况下的跨模态检索方法，实现车辆检索；

所述用于深度学习和训练识别的多任务端到端的卷积神经网络含有共享卷积模块、感兴趣区域坐标回归、识别模块和多任务学习模块；

共享卷积模块：共享网络由5个卷积模块组成，其中conv2_x到conv5_x的最后一层分别为{4²,8²,16²,16²}作为特征图的输出尺寸，conv1作为输入层只含有单层卷积层；

在共享卷积模块之后连接感兴趣区域坐标回归和识别模块，此模块将任意大小的图像作为输入，输出目标区域的矩形预测框的集合，包含了每个预测框的位置坐标和数据集中类别的概率得分，为了生成区域建议框，首先输入图像经过卷积共享层生成特征图，然后在特征图上进行多尺度卷积操作，实现过程为：在每一个滑动窗口的位置使用3种尺度和3种长宽比，以当前滑动窗口中心为中心，并对应一种尺度和长宽比，则可以在原图上映射得到9种不同尺度的候选区域；如对于大小为w×h的共享卷积特征图，则总共有w×h×9个候选区域；最后，分类层输出w×h×9×2个候选区域的得分，即对每个区域是目标/非目标的估计概率，回归层输出w×h×9×4个参数，即候选区域的坐标参数；

训练RPN网络时，给每个候选区域分配一个二进制标签，以此来标注该区域是否是对象目标，操作如下：1)与某个真正目标区域GT最高的IoU重叠候选区域；2)与任意GT包围盒有大于0.7的IoU交叠的候选区域，分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域；3)介于两者之间的舍弃；

有了这些定义，最小化目标函数，对一个图像的损失函数定义为:

其中，i是第i个候选区域的索引，p_i是候选区域是第i类的概率，如果候选区域的标签为正，为1，如果候选区域标签为0，就是0，t_i是一个向量，表示预测的包围盒的4个参数化坐标，是对应的GT包围盒的坐标向量，N_cls和N_reg分别为分类损失函数与位置回归损失函数的归一化系数，λ为两者之间的权重参数，分类损失函数L_cls是两个类别的对数损失，两个类别为目标和非目标：

对于位置回归损失函数L_reg，用以下函数定义：

其中，R是鲁棒的损失函数smooth_L1；

然而，训练一个多任务深度学习网络并非是一件容易实现的过程，因为不同任务级别的信息有着各自不同的学习难点和收敛速度，多任务联合训练过程如下：假设，总任务数为T，对于第t个任务的训练数据记为其中t∈(1,T)，i∈(1,N)，N为总训练样本数，分别为第i样本的特征向量和标注标签，那么多任务目标函数则表示为：

式中是输入特征向量和权重参数w^t的映射函数，L(·)为损失函数，Φ(w^t)为权重参数的正则化值；

对于损失函数，利用softmax配合对数似然代价函数训练最后一层的特征，实现图像分类，softmax损失函数定义如下：

式中，x_i为第i深度特征，W_j为最后一个全连接层中权重的第j列，b是偏置项，m,n分别为处理样本数量与类别数；

卷积神经网络训练是一个反向传播过程，通过误差函数反向传播，利用随机梯度下降法对卷积参数和偏置进行优化调整，直到网络收敛或者达到最大迭代次数停止；

该神经网络训练是一个反向传播过程，通过误差函数反向传播，利用随机梯度下降法对卷积参数和偏置进行优化调整，直到网络收敛或者达到最大迭代次数停止；

反向传播需要通过对带有标签的训练样本进行比较，采用平方误差代价函数，对于c个类别，N个训练样本的多类别进行识别，网络最终输出误差函数用公式(7)来计算误差，

式中，E^N为平方误差代价函数，为第n个样本对应标签的第k维，为第n个样本对应网络预测的第k个输出；

对误差函数进行反向传播时，采用传统的BP算法类似的计算方法，具体公式形式，如公式(8)所示，

δ^l＝(W^l+1)^Tδ^l+1×f'(u^l) (u^l＝W^lx^l-1+b^l) (8)

式中，δ^l代表当前层的误差函数，δ^l+1代表上一层的误差函数，W^l+1为上一层映射矩阵，f'表示激活函数的反函数，即上采样，u^l表示未通过激活函数的上一层的输出，x^l-1表示下一层的输入，W^l为本层映射权值矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载