[发明专利]一种基于样本重加权的遥感图像多类目标检测方法有效
申请号: | 202011342048.2 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112418108B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 程塨;司永洁;姚西文;韩军伟;郭雷 | 申请(专利权)人: | 西北工业大学深圳研究院;西北工业大学 |
主分类号: | G06V20/13 | 分类号: | G06V20/13;G06V10/80;G06V10/774;G06V10/764;G06V10/776;G06V10/778;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 常威威 |
地址: | 518057 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 加权 遥感 图像 类目 检测 方法 | ||
1.一种基于样本重加权的遥感图像多类目标检测方法,其特征在于步骤如下:
步骤1,图像数据预处理:首先,对原始遥感图像数据集中的图像进行数据增广处理,然后,对处理后的图像进行尺度缩放,使所有输入图像具有相同的尺寸;
步骤2,构建目标检测网络,包括特征提取模块、特征增强模块和检测头部模块,其中,特征提取模块采用修改后的VGG16网络,即将VGG16的全连接层FC6替换为卷积核为3×3、卷积步长为1、卷积增补为6、空洞卷积率为6的卷积层,将全连接层FC7替换为卷积核为1×1、卷积步长为1的卷积层,输入图像经过特征提取模块得到长宽尺寸依次递减的多尺度特征图{CA1,CA2,CA3,CA4,CA5,CA6,CA7};特征增强模块对{CA1,CA2,CA3,CA4}这4组特征图进行处理,针对特征图{CA1}分别采用3×3和5×5的卷积核进行卷积操作得到{CA13,CA15},并将原特征图{CA1}与卷积后的特征图{CA13,CA15}的对应元素相加,得到融合后的特征图{C'A1},针对特征图{CA2}分别采用3×3和5×5的卷积核进行卷积操作得到{CA23,CA25},并将原特征图{CA2}与卷积后的特征图{CA23,CA25}的对应元素相加,得到融合后的特征图{C'A2};同时,针对特征图{CA3}分别采用1×1和3×3的卷积核进行卷积操作得到{CA31,CA33},并将原特征图{CA3}与卷积后的特征图{CA31,CA33}的对应元素相加,得到融合后的特征图{C'A3},针对特征图{CA4}分别采用1×1和3×3的卷积核进行卷积操作得到{CA41,CA43},并将原特征图{CA4}与卷积后的特征图{CA41,CA43}的对应元素相加,得到融合后的特征图{C'A4};经过特征增强模块获得新的特征图组{C'A1,C'A2,C'A3,C'A4},最终多尺度特征图表示为{C'A1,C'A2,C'A3,C'A4,CA5,CA6,CA7},它们的长宽尺度依次递减;
检测头部模块包括分类分支和回归分支,分类分支为卷积核为3x3、卷积步长为1、卷积增补为1的网络,将多尺度特征图输入到分类分支,输出为该特征图中每个先验框的类别预测值;回归分支为卷积核为3x3、卷积步长为1、卷积增补为1的网络,将多尺度特征图输入到回归分支,输出为该特征图中每个先验框的坐标偏移量;
针对特征图上每个像素点,添加不同尺度和长宽比的先验框,具体如下:
对于特征图C'A1,其先验框尺度设置为input_size×4/100,input_size表示输入图像的尺寸;对于其他特征图,其先验框尺度按以下公式计算得到:
其中,m指除C'A1外特征图的个数,这里m=6,sk表示第k个特征图中的先验框的尺度,k=2、3、4、5、6、7依次表示特征图C'A2、C'A3、C'A4、CA5、CA6、CA7,smin表示比例的最小值,smin=0.1,smax表示比例的最大值,smax=0.9;
针对特征图{C'A1,C'A2,CA7}的每个像素点,分别设置4个先验框,其中3个框的长宽比依次设定为1:1、2:1、1:2,另外,在每一组特征图上设置一组尺度信息为且长宽比为1:1的先验框,k=1、2、7,其中,s8=input_szie×106/100;针对特征图{C'A3,C'A4,CA5,CA6}的每个像素点,分别设置6个先验框,其中5个框的长宽比依次设定为1:1、2:1、1:2、1:3、3:1,另外,在每一组特征图上额外设置一组尺度信息为且长宽比为1:1的先验框,k=3、4、5、6;
将所有先验框按照像素点位置映射到输入图像上;
步骤3,对网络进行端到端的训练:将步骤1预处理后的图片输入到步骤2构建的目标检测网络进行训练,当达到设定的训练总次数时,停止训练,得到训练好的目标检测网络;其中,网络训练参数分别设定为:训练总次数设置为24个epoch,初始学习率为2.5e-4,一个批次处理的图片数为8,学习率在epoch为16-22时开始下降,下降速率为0.1,到第23个epoch时,学习率降低为2.5e-6;网络的损失函数设定为:
Lcls=F.cross_entropy(clsscore,labels)*scale_weight (3)
Lreg=smooth_l1_loss(bboxpred,bboxtargets)*scale_weight (4)
其中,Ltotal表示总的网络损失,Lcls表示分类损失,Lreg表示回归损失,Ncls表示参与分类损失计算的样本总数,Nreg表示参与回归损失计算的样本总数,表示先验框的归属,根据先验框与Ground Truth框进行匹配的原则确定,若先验框被匹配为正样本,则若先验框被匹配为负样本,则F.cross_entropy(·)表示交叉熵损失,clsscore表示分类分支针对先验框的类别预测值,labels表示先验框与Ground Truth框匹配的标签真值信息,其取值范围为[1,...,K],K表示类别总数,labels=0表示为负样本;smooth_l1_loss(·)用于计算回归损失,bboxpred表示回归分支对先验框预测的坐标偏移量,bboxtargets表示先验框的坐标偏移真值,scale_weight表示匹配为正样本的先验框所属真值信息的纵横比经过归一化之后的结果;
所述的交叉熵损失F.cross_entropy(·)的计算表达式如下:
F.cross_entropy=-[labels*log(clsscore)+(1-labels)*log(1-clsscore)] (5)
在进行上述计算时,labels的信息由[0,K]转换为一个One-hot向量;
所述的回归损失函数smooth_l1_loss(·)的计算表达式如下:
所述的scale_weight的计算公式如下:
scale_weight=exp(-scale′)+1 (7)
其中,scale′表示匹配为正样本的先验框的纵横比系数,按照以下公式计算:
其中,scale表示匹配为正样本的先验框的宽度与高度之比;
步骤4,目标检测:将待检测遥感图像输入到步骤3训练好的目标检测网络中,得到每个先验框的类别预测值和其坐标偏移量,然后利用归一化指数函数Softmax将类别预测值转换为最终的类别概率得分,具体计算公式如下:
其中,σ(z)j代表先验框内目标被预测为类别j的概率得分,其范围为(0,1);j代表类别所对应的序号,j=0,1,…,K,j=0表示为背景;zj和zk代表目标检测网络输出的先验框的类别预测值;
概率得分最大值所对应的类别即为该先验框最终的分类结果;
按照下式计算先验框经过坐标偏移之后得到的检测框位置信息:
其中,{blx,bly,brx,bry}表示检测框的位置信息,blx表示检测框左上角x方向的坐标,bly表示检测框左上角y方向的坐标,brx表示检测框右下角x方向的坐标,bry表示检测框右下角y方向的坐标;{tx,ty,tw,th}表示回归分支网络预测得到的坐标偏移量,tx表示在x方向上的偏移量,ty表示在y方向上的偏移量,tw表示宽度尺度因子,th表示高度尺度因子;{px,py,pw,ph}表示先验框的坐标信息,px表示先验框左上角x方向的坐标,py表示先验框左上角y方向的坐标,pw表示先验框的宽度,ph表示先验框的高度;
最后,按以下过程进行目标检测:首先,删除属于背景类的检测框;然后,删除概率得分小于0.02的检测框,如果此时剩余检测框个数大于200,则仅保留概率得分最高的前200个检测框;最后,利用非极大值抑制来过滤针对同一目标的重叠率较高的检测框,剩余检测框即为最终的目标检测结果,具体为:以概率得分最高的检测框为基准框,分别计算其他检测框与基准框的重叠率IoU,并将重叠率IoU大于0.45的检测框的得分置为0;然后以概率得分次高的检测框为基准框,重复上述操作,直至遍历所有检测框完成上述操作后,剩余得分大于零的检测框,即为最终的目标检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学深圳研究院;西北工业大学,未经西北工业大学深圳研究院;西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011342048.2/1.html,转载请声明来源钻瓜专利网。