[发明专利]鲁棒的多模态遥感图像目标检测方法在审
申请号: | 202110419691.9 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113095249A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 赵文达;解世赓;姚力波 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 遥感 图像 目标 检测 方法 | ||
1.一种鲁棒的多模态遥感图像目标检测方法,其特征在于,步骤如下:
采用三种模态的图像分别训练三个目标检测器;
采用ResNet50作为三个目标检测器的骨干网络来提取用于目标检测的特征;
在网络训练阶段,三个目标检测器的损失函数相同,差异在于输入的数据,对于任一目标检测器的损失函数说明如下:利用Facol Loss损失函数来平衡正负样本对应的损失函数值:
其中,N1为一个训练批次中目标的数目,Yxyc为图片真值,为网络预测值,α和β为网络的两个超参数用于规定锚框分类过程中正负样本的平衡程度;锚框回归分支实际上预测的是人为规定的锚框与真值之间的位置和大小的差距;现设真值锚框为(x,y,h,w),四个值分别代表锚框位置的横坐标、纵坐标、锚框高度和宽度;人为规定的的锚框为则网络需要预测:
利用如下损失函数来监督网络:
其中,N2为与第j个真值框重叠度大于阈值的预测框数目;为网络的对第i个符合要求锚框的预测值,符合要求即为第i个与第j个真值框重叠度大于阈值;tmj为对应真值,(xj,yj,hj,wj)为第j个真值锚框的参数,为第i个符合要求的人为规定锚框的参数;在网络总的损失函数为:
L=Lclass+εLloc (1-4)
其中,ε用于平衡两种任务的损失,Lclass和Lloc为式(1-1)和式(1-3)中规定的损失函数;
三个目标检测器进行知识蒸馏得到一个鲁棒的网络
提出一个基于知识蒸馏的多模态遥感目标检测任务的归纳方法,集成了多个源数据集上训练出来的不同目标检测网络的知识,是利用多个来自多个源的目标检测器强化后的模型;因此,仅使用一个单一模态目标检测网络,就完成对任意输入源图像进行预测;知识蒸馏的目的是将复杂的教师模型知识压缩到一个简单轻量的学生模型中;通过将数据送入一个预训练好的教师模型中产生软标签来训练学生模型;
学生网络根据输入选取对应的老师网络进行学习,三种模态的图像知识蒸馏的过程相同,对于任一模态的说明如下:假设拥有数据集{ai,bi},i=1,2,...,n,其中a是输入图像,b是分类标签;Pt,Ps分别为教师和学生模型的分类预测结果,学生检测模型在训练时的分类任务优化目标如下:
Lcls=μLhard(Ps,b)+(1-μ)Lsoft(Ps,Pt) (1-5)
其中,Lhard是学生模型预测结果和真值之间的硬损失,Lsoft是学生模型预测结果和教师模型预测结果之间的软损失;μ是用来平衡软硬损失的超参数;软标签包含老师模型所发现的不同类别目标之间的潜在关系;通过学习软标签,学生网络继承这些隐藏的信息;但是不像简单的分类问题,检测问题需要处理不同类别之间的严重不平衡,也就是说,背景占主导地位;因此,采用类加权交叉熵作为分类蒸馏损失:
Lsoft(Ps,Pt)=-∑wcPtlogPs (1-6)
其中,wc为平衡权重,对于目标类别使用较大的权重,而对于背景类别使用较小的权重;Ps和Pt分别为学生模型和老师模型的目标分类预测结果;对于目标检测网络,还有一个支路用来做目标边界框的定位于回归,类似分类支路,也使用真值和教师模型的预测计算边框回归损失:
Lreg=LsL1(Rs,yreg)+νLt(Rs,Rt,yreg) (1-7)
其中,yreg是边框真值坐标点向量,Rs,Rt分别是学生和教师模型的回归预测结果;ν是用来平衡学生模型预测结果对真值和教师模型预测结果之间损失的超参数;LsL1是平滑L1损失;对于损失,描述如下:
即,认为当学生和教师模型预测误差超过一定范围了,对真值采用L2损失;此处的教师模型的预测作为一个判断标准而非直接使用;其中,m是判别边界参数;使用教师的中间表现帮助学生模型的训练过程,并提高学生的最终表现;因此,分别在学生网络的中间层和末端层特征进行约束;使用学生和教师模型的L2距离进行约束,特征约束损失描述如下:
Lf(Fs,Ft)=||Fs-Ft||2 (1-9)
其中,Fs和Ft分别为为老师网络和学生网络的特征图最终蒸馏过程中的网络损失函数为:
Ld=λ1Lcls+λ2Lreg+λ3Lf (1-10)
其中λ1、λ2、λ3用于平衡两种任务的损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110419691.9/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序