[发明专利]一种基于难分样本挖掘的Faster RCNN目标检测方法有效
申请号: | 201811463226.X | 申请日: | 2018-12-03 |
公开(公告)号: | CN109800778B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 张烨;樊一超;郭艺玲;许艇;程康 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于难分样本挖掘的Faster RCNN目标检测方法,包括:步骤1,基于深度学习的图像目标检测:步骤2,基于在线样本挖掘方法,采用的关键参数调整设置为:步骤3,负难分样本挖掘是在难分样本基础上通过调整训练中RPN形成的mini‑batch正负样本比例为1:3,进行训练;步骤4,剔除冗余框,避免损失的多重计算。采用的是改进后的非极大值抑制算法将RPN层网络生成的建议框合理的去除冗余。本发明在不扩充样本的情况下,放宽负样本的定义,通过样本本身在线挖掘出更多的难训练样本;设置了正负样本比例,合理而简便地计算损失最大、难训练的、罕见的样本;对分类、边框回归的损失进行了平衡化处理,能够满足训练损失的持续降低。 | ||
搜索关键词: | 一种 基于 样本 挖掘 faster rcnn 目标 检测 方法 | ||
【主权项】:
1.一种基于难分样本挖掘的Faster RCNN目标检测方法,包括如下步骤:步骤1,基于深度学习的图像目标检测;基于Faster RCNN进行分析,Faster RCNN采用了Softmax Loss和Smooth L1 Loss对分类概率和边框回归联合训练,损失函数公式为:
其中,Ncls=256表示前景的个数,而边框回归个数Nreg=2400是最后特征图滑动的最大维度数量40×60;i表示某一个建议框;pi表示预测出对应类别的概率,包括前景、背景;
表示前景与背景的取值,记前景
背景
以此计算目标边框回归的损失;ti表示该建议框的坐标信息,即中心点坐标和建议框宽高ti=(xi,yi,wi,hi),而
表示真正对应的目标物体信息,同样的
而λ平衡着边框回归和分类损失的权重;Lcls为softmax分类损失函数,
边框回归损失采用smooth L1的方法;步骤2,基于在线样本挖掘方法,采用的关键参数调整设置为:(21)设定难分样本的筛选机制;每次迭代筛选的难分样本是根据当前的总损失L({pi},{ti})降序排列,并且筛选前B/N个样本量,其中B=64,N为每次训练的图片张数N=1,这样训练的反向传播速度更快,因为只有少量需要调整的梯度;(22)提高运算速度;在反向传递时,筛选的难分样本是由前向损失计算得来,通过非难分样本损失置0操作,并不能减少模型显存量;所以反向传递筛选出B/N难分样本进行梯度传递,训练的显存容量从3527M减少到3057M;(23)在RPN层和最后全连接层同时增加OHEM模块;由于良好的分类结果取决于精确的目标定位,即建议框的产生,所以对RPN层也增加OHEM模块,有利于边框回归出最精确的位置,更是提高了分类的特征提取的有效性;(24)适当的调整分类损失和边框回归损失的权重;在损失函数公式中,分类损失Lcls和边框回归损失Lreg是不均衡的,Ncls=256是分类的个数,而Nreg=2400是最后特征图滑动的最大维度,两者取倒数相差约10倍,因此取λ=10,这样有利于在回归较好边框的同时,有针对性地学习相应的目标特征;(25)调整非极大值抑制(NMS)算法;经典的非极大值抑制算法不能很好地保留相邻或重叠的多目标检测框,导致目标检测的召回率降低;因此,本发明改进的非极大值抑制算法采用了分类的置信度惩罚机制,在去除冗余的建议框的同时还很好的保留了建议框,并进一步提高了mAP;具体的操作在步骤三中讲到;(26)数据增强工作提高了模型的泛化能力;训练时通过随机左右镜像翻转和光照饱和度调节,增加样本多样性,防止过拟合;为提高模型对不同尺寸图像的检测能力,在训练时使用了多尺度训练,将图像的短边设置{224,416,480,512,600,672,900}的随机尺寸,另一边等比例放缩;样本的增强工作也进一步地提高了mAP;(27)调整了学习率的策略;将学习速率的下降点设置为40k,相当于8个epoch,并且此后隔20k个迭代次数再下降一次学习速率,这样有利于提高前期的全局范围搜索能力,避免陷入局部极小值点;同时,后期采用的较小学习速率,进行极小值的精细化调整,有利于损失的一降再降;步骤3,负难分样本挖掘是在难分样本基础上通过调整训练中RPN形成的mini‑batch正负样本比例为1:3,进行训练,具体包括:(31)取消负样本的阈值限制;在原先的Faster R‑CNN中,判定为背景的机制是根据RPN产生的候选建议框与真实框之间的交并比IoU的大小进行设定,当IoU的比例在[0.1,0.5)时,被认为是背景的建议框;这比例设置的不足之处在于忽略了低于0.1以下的罕见、损失较大、重要的难分负样本,这些特征没能很好的被学习;因此,本发明设置判定背景的阈值为[0,0.5);设置了正样本的阈值为IoU值最大的一个,或者IoU的阈值在[0.7,1.0]范围;(32)设置难分正负样本的比例1:3;如前所述,正负样本同时兼顾,并且更多地学习背景信息,能够提高模型在特定背景环境下定位检测目标的能力;并且设置了每次的目标图片批次大小为64,则正样本的数量为16,负样本的数量为48;(33)同时考虑到预测出的正样本与标签存在多个重复的情况,采用了非极大值抑制方法,采用0.7的阈值,当目标与标签的IoU在0.7以下时,则予以删除;对步骤3中的负难分样本挖掘参数的设置如下:FG_THRESH代表的含义:正样本IoU阈值;参数取值:[0.7,1.0];BG_THRESH_LO代表的含义:负样本IoU阈值;参数取值:[0,0.5);HNEM_NMS_THRESH代表的含义:非极大值抑制阈值;参数取值:0.7;HNEM_BATCHSIZE代表的含义:图片目标批次大小;参数取值:64;RPN_FG_FRACTION代表的含义:正样本比例;参数取值:0.25;RPN_BG_FRACTION代表的含义:负样本比例;参数取值:0.75;步骤4,剔除冗余框,避免损失的多重计算;采用的是改进后的非极大值抑制算法将RPN层网络生成的建议框合理的去除冗余;具体的操作为:避免粗鲁地删除IoU大于阈值的建议框,采取的改进方式是降低其置信度;采取的计算方法有线性加权、高斯加权法、指数加权法;其中,线性加权的计算方法是将IoU大于阈值的降低其置信度,即引入罚函数的思想:
式中,si表示当前所属类别的置信度得分,a表示权值系数,0<a≤1,bm表示置信度得分最高所对应的边框,bi表示当前的边框,IoU(bm,bi)表示两者的交并比,Nt表示所给定的阈值;而采用高斯加权法的计算公式为:
式中,σ的取值不同影响罚函数的惩罚力度,高斯加权函数相比线性加权具有平滑过渡等特点;指数加权法同样采用了一定的阈值,当其IoU大于该阈值时,对其进行惩罚;相比线性加权法,在阈值处具有平滑过渡的特点;相比高斯加权法,在阈值前一阶段能够保留较多权值;计算公式:
式中,Nt同样表示IoU阈值;经过多次的实验,针对每一种改进的非极大值抑制算法,对应的具体流程和各自的适应情况总结如下:(41)针对线性加权方法,通过置信度降序,筛选某一类中置信度最高的边框作为最优边框,比较下一个边框的IoU与既定阈值Nt,当小于该阈值时,置信度分值不变;否则置信度阈值降低为a(1‑IoU)的比例,即IoU越大,惩罚力度越大;循环操作,直到所有待定边框的置信度小于给定的置信度阈值threshold,则舍弃,记录历史最优值;该方法适用于重复边框较多、时间复杂度低、快速筛选结果的情景,即惩罚的力度较大,很快筛选完毕,但得到的效果并不太理想;(42)针对高斯加权法,同样筛选出最优置信度边框,但无需设定Nt的阈值,通过指数函数递减,即IoU越大,置信度分值递减越大,并且设定的σ值控制着递减的程度;循环比较,置信度得分,当小于既定置信度阈值threshold,剔除这些冗余框;否则保留置信度高的最优框;该方法适用于预测产生的边框数量中等、时间要求不高的、数量统计准确的情况,并且平滑过渡的筛选有助于得到较好的回归框,虽然时间复杂度较线性差,但是得到的结果较优;(43)针对指数加权法,同样比较次优置信度边框与最优边框的IoU,设定一定的阈值Nt;当小于该阈值时,置信度分值不变;否则置信度阈值降低为
该指数呈现递减的效果;直到所有的框都检测完毕,保留置信度大于阈值的建议框;该方法适用于保留较多回归框、删选部分冗余框的情景,可应用于只需检测目标有无,不需统计数量的情况,因此效果比线性和高斯加权法差;根据不同的条件和适用场合选择不同的计算方法来降低其置信度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811463226.X/,转载请声明来源钻瓜专利网。