[发明专利]一种基于卷积神经网络的遥感图像多目标检测方法有效
申请号: | 201810380509.1 | 申请日: | 2018-04-25 |
公开(公告)号: | CN108596101B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 贺光辉;吴佳祥;陈海宝;何卫锋 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 张宁展 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 遥感 图像 多目标 检测 方法 | ||
1.一种基于卷积神经网络的遥感图像多目标检测方法,其特征在于:该方法包含以下步骤:
1)采集遥感图像数据集,通过从公开的遥感影音图像数据中获取,随机分成训练集图像和测试集图像;
2)设置网络参数,包括网络层数,层与层之间的连接关系,以及每一层的权重;采用预训练模型对网络参数进行初始化;
3)读取训练集图像,在深度学习平台中训练尺度自适应网络,通过多次迭代来降低网络输出与实际真实值之间的误差,达到一定迭代次数后,得到最终模型;
所述的尺度自适应网络包括双层选框网络与检测子网络,具体的:
所述的双层选框网络,采用输入不同卷积层的特征,低层特征分辨率高,语义性低适合小目标检测,高层特征分辨率低,语义性强适合大目标检测,每一个单独的选框产生网络包括一个特征降维卷积层,前景后景概率卷积层和一个坐标回归预测卷积层,之后通过输出的前景后景概率以及坐标筛选出一定数量和比例的正负选框;所述的检测子网络采用多层特征融合,将反卷积层在保留高层特征的同时扩大其分辨率,并按照对应坐标逐个相加的方式融合低层与高层的特征得到一组新的特征,输入到检测网络中;
4)网络测试,读取测试集图像,并输入到所述的最终模型中,输出物体的坐标和类别。
2.根据权利要求1所述的基于卷积神经网络的遥感图像多目标检测方法,其特征在于:所述的尺度自适应网络的训练步骤如下:
步骤3-1,双层选框产生网络利用不同层次的特征图产生选框,网络1采用Conv5层的特征并通过面积较大的基准框集合S1来产生大目标选框,即最小覆盖目标区域的矩形面积在128x128以上;网络2采用Conv4层的特征并利用面积较小的基准框集合S2产生更多小目标的选框,即最小覆盖目标区域的矩形面积在128x128以下,最终双层选框产生网络产生的选框进行汇集并筛选送入到检测子网络中;
步骤3-2,用RoI-Pooling层,接受大小不同的特征图,通过设置池化核的大小为[H/7,W/7],获得池化后固定大小的特征图;
步骤3-3,训练中的特征融合方式是,Conv4输出的特征F7和Conv5输出的特征F9在尺度上相差两倍,即F7的宽度和高度是F9宽高的两倍,通过反卷积操作,先将F9的特征图扩大两倍,得到Fdeconv,之后Fdeconv和F7按照逐坐标相加的方式得到Ffusion:
Ffusion(x,y,c)=Fdeconv(x,y,c)+F7(x,y,c),x=1...W,y=1...H,c=1...C
其中,W和H分别是特征图的宽和高,C为通道数,融合的两层特征在三个维度上保持一致;
步骤3-4,在网络训练过程中,先设定一个初始的学习率为lr,经过n次迭代后,缩小10倍,继续训练,这样可以加速网络的收敛速度,获得更高的准确率。
3.根据权利要求1所述的基于卷积神经网络的遥感图像多目标检测方法,其特征在于:所述的步骤3,检测网络的具体训练步骤如下:
步骤3-1,从训练集中随机选取图像Xi进行训练,通过预训练卷积神经网络模型中的Conv1至Conv5得到特征图Fk;
步骤3-2,双层选框产生网络,两个选框产生网络的操作基本一致,但利用的特征层次不同,同时基于低层特征的选框基准尺寸较小,适合小尺寸选框的回归,而同时基于高层特征的选框基准尺寸较大,适合大尺寸选框;
步骤3-3,检测网络中的单层选框产生网络再对FK进行卷积操作得到Frpn_conv,再对Frpn_conv进行两次卷积操作,分别得到Frpn_cls和Frpn_bbr,其中Frpn_conv的Frpn_cls代表了选框为前景的概率,Frpn_bbr代表了选框的四个坐标值;
步骤3-4,选框产生网络通过选框的坐标以及选框为前景的概率筛选部分选框进入最终的检测子网络,通过选框与原图的对应关系以及FK,计算出选框所对应的特征图Fproposal,经过RoI_Pooling层的池化后得到特征图FRoI,通过两层全连接层Fc6和Fc7后得到一个固定维度的特征向量,并再次利用两个卷积层得到Fcls和Fbbr,Fcls代表了预测目标的类别概率,Fbbr代表了预测目标的选框坐标;
步骤3-5,训练过程中,需要反向传播以及梯度下降算法来降低网络的误差值loss,检测网络的loss包括两个部分,分别对应选框产生网Loss1以及检测子网络Loss2;两部分的loss都是包含了分类的误差以及坐标预测的误差,即Frpn_cls和Frpn_bbr,Fcls和Fbbr的输出与真实值之间的误差;设样本的真实类别为Y,预测类别为P,真实坐标为集合d=(dx,dy,dw,dh),预测坐标为集合集合中四个坐标分别代表的一个矩形的左上角的x,y坐标以及矩形的宽度与高度,以Loss1为例,
其中Lcls(p,y)=-log(py),代表分类损失,当y≥1时,即不是背景类别时,定位的损失为其中
Loss2与Loss1是由分类损失和坐标预测损失组成;
步骤3-6,采用高层特征与低层特征相融合的方式,Conv4和Conv5的F7和F9对应通道和像素位置依次相加,输入到最终检测子网络中,提升了小目标的识别率;
步骤3-7,通过梯度下降算法,降低整个检测网络的loss并更新网络中的权重,训练N次迭代后,保存模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810380509.1/1.html,转载请声明来源钻瓜专利网。