[发明专利]一种遥感场景图像多标签分类方法和装置、存储介质在审
申请号: | 202211113132.6 | 申请日: | 2022-09-14 |
公开(公告)号: | CN115601584A | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 刘宏哲;吴宏俊;刘力铭;徐成;代松银;潘卫国;徐冰心 | 申请(专利权)人: | 北京联合大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V20/10;G06V10/40;G06V10/77;G06V10/82;G06N3/04 |
代理公司: | 北京盛询知识产权代理有限公司 11901 | 代理人: | 张焱 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 遥感 场景 图像 标签 分类 方法 装置 存储 介质 | ||
本发明公开一种遥感场景图像多标签分类方法和装置、存储介质,包括:提取遥感场景图像特征;将所述遥感场景图像特征转化为每个类别标签对应的标签嵌入;根据所述标签嵌入之间相关性,得到第一类间关系矩阵;根据所述第一类间关系矩阵构建蒙版,得到第二类间关系矩阵;根据所述第二类间关系矩阵更新所述标签嵌入,得到每一个类别标签的预测分数;根据所述每一个类别标签的预测分数,确定所述遥感场景图像的标签。采用本发明的技术方案,以解决现有技术在建模类间关系时没有排除图像中不存在的类别造成偏差的问题。
技术领域
本发明属于遥感图像处理技术领域,尤其涉及一种基于蒙版注意力机制的遥感场景图像的多标签分类方法和装置、存储介质。
背景技术
近年来,随着遥感技术的不断发展,机载和星载遥感影像已经广泛用于土地覆盖测绘和监测。一般来说,由于高分辨率遥感图像所描绘的土地覆盖物种类繁多,只用单个标签无法准确描述图像中的内容。多标签遥感图像分类方法能够为每幅遥感影像分配多个土地覆盖标签,从而准确地表达遥感图像的,更符合遥感图像理解的实际需求。
最近基于深度学习的视觉特征提取器在图像识别领域取得巨大的进步,比如DCNN(Deep Convolutional Neural Network,深度卷积神经网络)中的ResNet(深度残差网络)和Visual Transformer(视觉转换器)中的Swin Transformer(Hierarchical VisionTransformer using Shifted Windows,使用移位窗口的分层视觉转换器)。这些特征提取器能够提取更容易分辨的高级语义特征,对单标签图像分类有很大帮助。然而,与遥感图像的单标签分类相比,遥感图像的多标签分类是一个更加复杂的任务。一方面,在一幅遥感图像中,存在多个不同空间分辨率的地表覆盖物。例如,“汽车”的大小远小于“球场”,因此,“汽车”是不显眼的类别之一。另一方面,由于在遥感图像中,土地覆盖对象通常是共存的,所以类间关系是分类的另一个关键。因此,遥感图像的多标签分类任务不仅考虑精确的空间特征提取,还考虑多个类别之间的相关性。
在典型的多标签图像分类中,空间信息的利用和类间关系都是重要的问题。处理空间信息的方法主要有,引入区域建议,隐式空间注意,或者多尺度特征。引入区域建议需要额外的边界框标注,所述的边界框标注需要耗费巨大的人力成本。使用隐式的空间注意能够通过分类损失的监督来自动定位各个类别对象在图像中的位置,而无需人工标注的边界框监督。使用多尺度特征能够一定程度上增加模型对不同尺度的对象的识别能力,但是会增加计算量。
另一方面,类间关系的建模也得到广泛研究。早期的方法使用RNN(RecurrentNeural Network,循环神经网络)或LSTM(Long Short-Term Memory,长短时记忆)按照顺序的方式预测图像中的多个标签,并学习标签的顺序相关性。然而,基于RNN或者LSTM的方法的性能受到预先设置或学习到的顺序的影响。其他一些研究将多标签图像分类任务描述为基于概率图形模型的结构推理问题,但由于计算复杂度高,其实用性受到限制。受GCN(Graph Convolutional Neural Network,图卷积神经网络)在多元关系表示方面的启发,部分研究人员使用GCN来显式建模标签相关性。卷积神经网络性能受限于卷积的感受野,长范围的关系建模效果较差。基于注意力机制的Transformer(转换器)使用自注意机制学习一个长序列中每一对元素之间的关系,在长范围关系建模方面比卷积神经网络更有优势。目前Transformer已经在自然语言处理和计算机视觉领域都已经有广泛的应用。
针对多标签分类中的广泛存在的两类问题:需要更精确的空间信息和类间关系建模,现有的遥感图像的多标签分类方法主要分为两种:处理空间的方法和处理类间关系的方法,但是缺乏综合考虑这两个问题的方法。同时,现有的类间关系建模方法通常都是直接建模所有类别之间的整体标签依赖关系。然而,单一图像中只存在部分类别对象,从图像中提取的视觉特征大多与真实标签相关,而缺乏与不存在的类别相关的特征。通过因此,在不存在的类别之间计算的类间关系是不准确的。这些不准确的标签间依赖关系给分类任务带来噪声。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211113132.6/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序