[发明专利]基于多尺度深度特征融合和迁移学习的遥感影像场景分类方法有效
申请号: | 201910762295.9 | 申请日: | 2019-08-19 |
公开(公告)号: | CN110555446B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 张菁;赵晓蕾;卓力;田吉淼 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/774;G06V10/46;G06V10/82;G06N3/0464;G06N3/084 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 深度 特征 融合 迁移 学习 遥感 影像 场景 分类 方法 | ||
1.一种基于多尺度深度特征融合和迁移学习的遥感影像场景分类方法,其特征在于步骤如下:
步骤1:多尺度深度局部特征的获取
步骤1.1:多尺度遥感影像的生成
采用高斯金字塔算法,通过高斯核卷积和下采样形成多尺度遥感影像,高斯金字塔算法将高分辨率的图像置于最下层,将低分辨率图像置于最上层,形成金字塔型的多尺度图像,其中上一层图像的大小是下一层图像的四分之一,将获得的多尺度图像输入到去掉三个全连接层的VGG16-Net中,获得多尺度影像的局部特征,使得网络能够学习到同一图像不同尺度的特征,有利于正确分类遥感影像的场景;
设遥感影像数据集为I={I1,I2,…,IK},K是数据集图像数量;是图像Ik的多尺度表示,k表示数据集中第k张图像,l表示所在尺度层数,L表示图像形成的尺度数量;表示原始图像Ik,对于利用高斯核函数对其进行卷积,然后对卷积后的图像进行下采样,得到重复对前一层图像进行卷积和下采样操作,反复迭代多次,得到最后金字塔型的多尺度遥感影像;卷积和下采样操作的定义式为:
其中,0l≤L,(i,j)表示像素的空间位置,0i≤Rl,0jCl,Rl和Cl是第l层图像的行和列,﹡表示卷积操作,G(m,n)表示高斯核函数,大小为(2c+1)×(2c+1),c是一个正整数,(m,n)表示m行n列高斯核的位置;G(m,n)用公式表示为:
其中σ表示高斯滤波的方差;
选取的高斯核函数需要满足如下条件:
(1)可分离性:G(m,n)=G(m)*G(n),-c≤m≤c,-c≤n≤c(3)
(2)归一化:
(3)对称性:G(m)=G(-m) (5)
(4)奇偶项等贡献:G(c)+G(-c)+G(0)=G(c-1)+G[-(c-1)] (6)
其中,G(m)表示G(m,n)中第m行所有元素组成的一维行向量,G(n)表示G(m,n)中第n列所有元素组成的一维列向量;
步骤1.2:多尺度局部深度特征的获取
为了输入不同尺度大小的图像,去掉VGG16-Net最后三个全连接层,构造一个全卷积神经网络,将获得的多尺度遥感影像输入网络中,最后一个卷积层为所需要的多尺度深度局部特征,获得的特征大小为14×14×512;
步骤2:多尺度深度特征融合
采用VGG16-Net作为基础模型,通过特征编码操作增强了特征之间的相互关系,融合全局特征、局部特征,共同表示图像的特征,具体步骤如下:
步骤2.1:紧凑双线性池化操作(CBP)编码多尺度局部特征和全局特征
1)将数据集图像裁剪到224×224大小,输入到VGG16-Net中,提取第二个全连接层作为图像的全局特征,获得特征维数为4096;
2)利用随机麦克劳林算法(RM)实现这种映射;
将步骤1中VGG16-Net最后一个卷积层和步骤2.1的1)中获得的全局特征进行CBP操作,通过这个操作来对图像局部特征和全局特征进行编码,获得低维且具有区分度的特征,具体步骤如下:
(1)设步骤1获得的多尺度深度局部特征为X,表示为:
X=(x1,…,xS,xs∈Rp) (7)
设第二个全连接层获得的全局特征为Y,表示为:
Y=(y1,…,yq) (8)
其中,S为VGG16-Net最后一个卷积层特征图14×14大小的特征集合,R表示实数集合,xs表示特征集合S每个空间位置s处的特征向量,s∈[1,196],每个xs的维数为p,为最后一个卷积层通道数,使用VGG16-Net,p的值为512,全局特征Y的维数为q,为第二个全连接层的维数,q的值为4096;
(2)RM算法得到CBP编码特征过程为:
①随机产生映射所需固定参数值Wx1,Wx2∈Rd×p,Wy1,Wy2∈Rd×q,以相同概率选取+1或-1作为Wx1,Wx2,Wy1,Wy2每一项的值;其中,p为局部特征X维数,q为全局特征Y维数,d为RM得到的编码后特征维数,试验表明d的值设置在2000~8000;
②设特征图每个空间位置s处特征值xs的RM映射为φRM(xs),计算公式为
设全局特征Y的RM映射φRM(Y),计算公式为:
其中°表示点乘运算;
③设CBP编码后多尺度深度局部特征为C(X),全局特征为C(Y),
其计算公式为:
C(Y)=φRM(Y) (12)
④设CBP操作获得融合特征为CCBP,表示为:
CCBP=C(X),C(Y) (13)
其中,·表示内积运算,CCBP是一个长度为d的一维向量;
步骤2.2:融合特征归一化
将得到的全局特征和局部特征融合在一起共同作为图像的特征,但是由于全局特征和局部特征差异较大,采用L2范数归一化的方法将特征值统一;设紧凑双线性池化操作获得的特征为CCBP=(a1,a2,…,ad),a1,...ad表示每一个编码后的特征,共有d个特征,L2范数归一化的计算方法为:
特征CCBP的L2范数e为:
L2归一化后特征为NCBP:
NCBP为最后用于分类任务的融合后的特征向量;
步骤3:利用迁移学习进行遥感影像场景分类
步骤3.1:遥感影像场景分类网络结构的设计
采用VGG16-Net作为基础网络进行训练,包括13个卷积层和3个全连接层,共有五个最大池化层,输入图像大小为224×224的RGB图像,卷积核大小为3×3和1×1,卷积层步长为1,3×3卷积层有一个像素的填充,以第一个卷积层为例,224×224×64表示特征图的尺寸为224×224,64表示一共有64个特征图,最后是三个全连接层,前两个的维数为4096,第三个全连接层维数为1000;在VGG16-Net网络结构的基础上作出改进,分别设计两个提取特征的网络;首先去掉VGG16-Net的三个全连接层,构成全卷积神经网络,输入不同尺度的图像,提取多尺度的局部特征;然后,使用原始的VGG16-Net网络,将遥感影像裁剪到224×224大小输入网络中,提取图像的全局特征;最后将局部特征和全局特征利用紧凑双线性池化操作融合两种特征,归一化后输入softmax分类器中进行分类;
步骤3.2:迁移学习策略的设计
(1)利用VGG16-Net预训练大规模遥感影像
首先将有标注的大规模遥感影像进行归一化,调整尺寸为224×224,输入到VGG16-Net网络中,从高斯分布中随机采样获得网络初始化参数,输入网络样本的批处理大小设置为32,通过反向传播算法最小化损失函数,采用随机梯度下降法进行优化,使得整个训练集的损失函数值与小批量的损失值近似,不断迭代更新达到设置的迭代次数,得到预训练模型;
设输入分类器的特征为x(i),输入到softmax分类器获得一个预测值hw,b(x(i)),预测值和真实值y(i)的差异采用损失函数J(·)度量,网络的复杂度用L2范数度量,具体优化目标函数如下:
J(w,b)=y(i)×loghw,b(x(i))+(1-y(i))×log(1-hw,b(x(i))) (17)
其中,w、b表示网络的所有权重和偏置参数,即学习的目标,H表示网络的层数,λ是惩罚系数,z表示训练样本个数;
权重更新步骤为:
其中,g表示目标函数的梯度,ε表示学习率,在预训练过程中设定为0.01,惩罚系数λ设置为0.005,迭代次数设置在30000~50000之间;
(2)采用迁移学习策略微调遥感影像分类网络参数
(2.1)设多尺度遥感影像数据集为将除Ik0以外的多尺度遥感影像输入到去掉全连接层的VGG16-Net中,利用迁移学习策略进行参数迁移,将步骤(1)中获得的网络模型参数去掉最后的softmax层和三个全连接层的参数作为该网络的初始化参数值;
(2.2)将Ik0裁剪到224×224大小,输入到VGG16-Net中,利用迁移学习策略,将步骤(1)中获得的网络模型参数去掉最后的softmax层参数迁移到该网络中,作为初始化参数值;
(2.3)在最后的分类网络最后添加新的softmax层,softmax层的节点数为遥感数据集所需分类类别个数Q,从高斯分布中随机采样作为该层的初始化参数值;
(2.4)输入网络样本的批处理大小设置为32,将样本输入网络中逐层微调网络参数:对于H层的网络,首先设置前H-1层的学习率为0,设置最后一层学习率为0.001微调参数,然后设置H-2层的学习率为0,设置最后两层学习率为0.001微调参数,逐层微调网络参数,每次微调达到设置的迭代次数为止,迭代次数设置在10000~20000之间;所使用的目标函数为式(16),权重更新步骤使用式(18),微调过程使用学习率设定为0.001,惩罚系数λ设置为0.005;
用优化过的网络作为下一步的预训练模型重复训练网络,直到达到设定的迭代次数,获得最后的遥感影像分类网络模型;
步骤3.3:遥感影像场景的分类
利用训练好的网络对遥感影像进行场景分类任务,输入需要进行分类的遥感影像,获得融合多尺度局部特征和全局特征的特征向量,利用softmax进行场景类型判别,获得该图像在每一类下的概率,概率值最大的即为对应的图像类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910762295.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:特征提取方法和装置及对象识别装置
- 下一篇:火灾的检测方法、装置及存储介质