[发明专利]基于TransUnet的遥感影像建筑物自动提取处理方法在审
申请号: | 202210146517.6 | 申请日: | 2022-02-17 |
公开(公告)号: | CN114581770A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 谭旭;庞世燕;李鑫宇;郝京京;王琼;张震 | 申请(专利权)人: | 深圳信息职业技术学院 |
主分类号: | G06V20/10 | 分类号: | G06V20/10;G06V10/774;G06V10/40;G06K9/62;G06N3/04 |
代理公司: | 深圳市千纳专利代理有限公司 44218 | 代理人: | 黄良宝 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transunet 遥感 影像 建筑物 自动 提取 处理 方法 | ||
1.基于TransUnet的遥感影像建筑物自动提取处理方法,所述方法通过构建遥感影像建筑物提取算法网络,经模型训练获取训练样本数据后,用于遥感影像建筑物自动提取;其特征在于:构建遥感影像建筑物提取算法网络的步骤包括有;生成网络设计、域自适应网络设计、弱监督网络设计和损失函数设计;采用卷积和Transformer结合的TransUnet来提升生成网络的性能;在域自适应方面采用基于GAN的生成对抗网络技术,将源域和目标域之间的分布差距最小化;在弱监督方面依靠图像级标签对生成网络进一步约束,采用开源建筑物提取数据集对提出的算法进行验证。
2.根据权利要求1基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:所述生成网络设计是将输入的图像向量的特征进行编码,然后再利用解码器将图像向量的特征进行解码操作,通过跳跃连接连接不同的层获取更多有用的特征;在结构上生成网络主要由编码器、注意力网络和解码器三部分组成。
3.根据权利要求2基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:所述编码器包含一层最大池化和三层由卷积、修正线性单元、组归一化所组成的堆叠结构;其中,堆叠的三层结构是完全相同的,都是由3组连续的卷积+组归一化+修正线性单元组成,每层的输出结果除传递到下一层外还用于后续的跳跃连接,在最后一组的卷积+组归一化过后,将得到的特征与起始特征进行拼接,再经过修正线性单元;在这一部分中,最大池化的卷积核为3×3,步长为2,不进行填充(padding);三层堆叠结构部分的卷积核为7×7,步长为2,填充为3;原始特征首先经过一次卷积和最大池化,输出特征图的高度与宽度均变为该层输入的1/2;之后再经过三个堆叠结构,每经过一层堆叠结构,输出特征图的高度与宽度也变为该层输入的1/2;最终输出的特征图的高和宽均变为原始影像的1/16。
4.根据权利要求2基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:所述注意力网络为transformer层堆叠模块;负责对上一步提取到的特征进行编码操作,包括12个完全相同的transformer层;其中,单个transformer层是由层归一化、注意力模块和多层感知器(MLP)组成的结构;其中,注意力模块的步骤如下:
第一步,得到查询向量、键向量、值向量;
第二步,用查询向量和键向量的点积,除以键向量的维数的开方,再经过softmax得到权值;
第三步,对值向量进行加权求和,得到输出向量,该向量也被称为一个注意力头;多层感知机是由若干线性层、激活层堆叠而成的结构;每一个单独的transformer层的做法是将接收到的原始特征进行一次层归一化后传入注意力模块得到隐藏特征,再将原始特征与隐藏特征拼接后的复合特征继续层归一化后传入多层感知机得到第二个隐藏特征,再将复合特征与此隐藏特征拼接后传入下一个transformer层,循环往复12次;最终输出的特征图的高和宽不变,仍均为原始影像的1/16。
5.根据权利要求4基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:单个transformer层内部结构包括自注意力层和前馈神经网络两层网络,而自注意力层则会计算三个向量:查询向量、键向量和值向量,进行如下操作,得到attention的值,
其中Q,K,V分别是查询向量、键向量和值向量,dk是Q,K矩阵的列数,即向量维度。
6.根据权利要求2基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:所述解码器是由三个完全相同的解码块和一个上采样构成,每个解码块包含一个上采样和两组连续的卷积与修正线性单元;其中卷积核均为3×3,步长为1,填充为1;每个解码块会将输入的特征图的高和宽均放大2倍,每个解码块输出的特征将会与编码器的多层卷积模块部分生成的多级特征进行拼接,再将结果输入到下一个解码块,迭代3次;最后的解码块输出的特征图的高和宽为原始影像的1/2,再经过一次上采样变为和原始影像相同大小;再将和原始影像相同大小的特征拼接后传入最后一层卷积网络生成逐像素的预测图,即最终的建筑物提取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院,未经深圳信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210146517.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通过式高速铰链钻
- 下一篇:摄像设备和电子装置