[发明专利]一种融合语义分割的遥感图像目标检测方法在审

申请号：	201910820020.6	申请日：	2019-08-31
公开（公告）号：	CN110633661A	公开（公告）日：	2019-12-31
发明（设计）人：	崔振;虞政麟;李承政;许春燕;张桐;杨健	申请（专利权）人：	南京理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06K9/62;G06N3/08
代理公司：	32203 南京理工大学专利中心	代理人：	马鲁晋
地址：	210094 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	边界框金字塔遥感图像语义分割语义特征候选框坐标轴多层构建掩码平行金字塔网络直角坐标系获取目标类别信息目标检测原始图像归一化小目标准确率融合回归检测图片改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合语义分割的遥感图像目标检测方法，其特征在于，包括以下步骤：

步骤1、构建改进的特征金字塔网络，提取遥感图像的多层金字塔特征；

步骤2、对金字塔特征进行语义分割，获取目标边界框级别的掩码和语义特征；

步骤3、构建图片笛卡尔直角坐标系，根据提取的金字塔特征和生成的边界框级别的掩码生成与图片坐标轴平行的候选框；

步骤4、根据候选框坐标、多层金字塔特征、语义特征和归一化后的原始图像确定边界框特征，再进行回归和softmax操作得到与坐标轴平行/旋转的边界框的位置信息以及物体的类别信息。

2.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤1中，改进的特征金字塔网络为6层，在传统的特征金字塔网络中增加1x1的卷积层和四分支增强模块，所述四分支增强模块由多个不同尺寸的卷积核构成，用来获得不同尺度的特征，提取特征时，首先使用1x1的卷积层，将编码层输出的编码特征转变为256个通道的特征；然后采取多分支增强模块，将256个通道分成4个分支网络，每个网络有64个通道，通过各自通道的卷积核变换后，将所有特征组合得到1个有256个通道的特征图；再用经上采样后的解码器对有256个通道的特征图解码，即得多层金字塔特征。

3.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤2中，获取目标边界框级别的掩码和语义特征的具体方法为：

首先通过采用上采样和下采样的方法将多层金字塔特征都标准化成相同的空间尺寸大小，即P₂层的空间尺寸，融合后通过空洞空间金字塔池化模块生成语义表征，再利用通道为1和256的1x1卷积层，分别产生边界框级别的掩码以及语义特征。

4.根据权利要求3所述的融合语义分割的遥感图像目标检测方法，其特征在于，所述空洞空间金字塔池化模块采用4个并行的卷积层，分别为普通的1x1卷积层和空洞率为24/48/72的3x3卷积层。

5.根据权利要求3所述的融合语义分割的遥感图像目标检测方法，其特征在于，层级下采样比率为4。

6.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤3中，以输入图片的左上角顶点为原点，水平方向和竖直方向为坐标轴，构建图片笛卡尔直角坐标系。

7.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤3中，生成与图片坐标轴平行的候选框的具体方法为：

将生成的掩码只下采样到P₃～P₆层，得到采样后的掩码，然后把它们分别与对应层的金字塔特征点乘，得到点乘后的特征向量，然后把它输入区域候选网络中，分别进行回归和softmax操作，得到多个与坐标轴平行的候选框坐标，以及前景和背景的值。

8.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤4中，生成与坐标轴平行/旋转的边界框的位置信息和物体类别信息的具体方法为：

将多层FPN特征和语义特征相加起来，形成一个特征映射，此处的特征映射通道数为256，将水平区域候选框坐标映射在上面，映射的规则为将候选框的坐标除以“输入图片与FPN多层特征和语义特征相加得到的特征映射的比值，得到在该特征映射上的候选框坐标，将这些坐标通过池化操作，得到大小固定的候选框，将它输入全连接层，与给定的权重A进行矩阵相乘，获得一个池化特征F₁，经过全连接层，特征的通道数由原来的256个变成1024个；

将原始图像归一化，形成一个特征映射，此处的特征映射通道数为3，将上述正负比为1:3的多个水平区域候选框坐标映射在上面，映射的规则为将候选框的坐标除以“输入图片与归一化后的原始图像的比值”，得到在此特征映射上的候选框坐标，将这些坐标通过池化操作，得到另外一些大小固定的候选框，将它输入到另一个全连接层，与给定的权重B进行矩阵相乘，获得池化特征F₂，经过全连接层，特征的通道数由原来的3个变成1024个；

将这两个池化特征相加再通过第三个全连接层，与给定的权重C进行矩阵相乘，得到边界框特征F₃，经过全连接层，特征的通道数保持1024个不变，然后将该边界框特征一方面进行回归操作得到与坐标轴平行/旋转的边界框的位置信息；另一方面进行softmax操作得到物体的类别信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910820020.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种文档识别的方法、设备和存储介质
下一篇：一种图像处理方法、装置及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合语义分割的遥感图像目标检测方法在审

专利文献下载