[发明专利]一种融合语义分割的遥感图像目标检测方法在审
申请号: | 201910820020.6 | 申请日: | 2019-08-31 |
公开(公告)号: | CN110633661A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 崔振;虞政麟;李承政;许春燕;张桐;杨健 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/08 |
代理公司: | 32203 南京理工大学专利中心 | 代理人: | 马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 边界框 金字塔 遥感图像 语义分割 语义特征 候选框 坐标轴 多层 构建 掩码 平行 金字塔网络 直角坐标系 获取目标 类别信息 目标检测 原始图像 归一化 小目标 准确率 融合 回归 检测 图片 改进 | ||
1.一种融合语义分割的遥感图像目标检测方法,其特征在于,包括以下步骤:
步骤1、构建改进的特征金字塔网络,提取遥感图像的多层金字塔特征;
步骤2、对金字塔特征进行语义分割,获取目标边界框级别的掩码和语义特征;
步骤3、构建图片笛卡尔直角坐标系,根据提取的金字塔特征和生成的边界框级别的掩码生成与图片坐标轴平行的候选框;
步骤4、根据候选框坐标、多层金字塔特征、语义特征和归一化后的原始图像确定边界框特征,再进行回归和softmax操作得到与坐标轴平行/旋转的边界框的位置信息以及物体的类别信息。
2.根据权利要求1所述的融合语义分割的遥感图像目标检测方法,其特征在于,步骤1中,改进的特征金字塔网络为6层,在传统的特征金字塔网络中增加1x1的卷积层和四分支增强模块,所述四分支增强模块由多个不同尺寸的卷积核构成,用来获得不同尺度的特征,提取特征时,首先使用1x1的卷积层,将编码层输出的编码特征转变为256个通道的特征;然后采取多分支增强模块,将256个通道分成4个分支网络,每个网络有64个通道,通过各自通道的卷积核变换后,将所有特征组合得到1个有256个通道的特征图;再用经上采样后的解码器对有256个通道的特征图解码,即得多层金字塔特征。
3.根据权利要求1所述的融合语义分割的遥感图像目标检测方法,其特征在于,步骤2中,获取目标边界框级别的掩码和语义特征的具体方法为:
首先通过采用上采样和下采样的方法将多层金字塔特征都标准化成相同的空间尺寸大小,即P2层的空间尺寸,融合后通过空洞空间金字塔池化模块生成语义表征,再利用通道为1和256的1x1卷积层,分别产生边界框级别的掩码以及语义特征。
4.根据权利要求3所述的融合语义分割的遥感图像目标检测方法,其特征在于,所述空洞空间金字塔池化模块采用4个并行的卷积层,分别为普通的1x1卷积层和空洞率为24/48/72的3x3卷积层。
5.根据权利要求3所述的融合语义分割的遥感图像目标检测方法,其特征在于,层级下采样比率为4。
6.根据权利要求1所述的融合语义分割的遥感图像目标检测方法,其特征在于,步骤3中,以输入图片的左上角顶点为原点,水平方向和竖直方向为坐标轴,构建图片笛卡尔直角坐标系。
7.根据权利要求1所述的融合语义分割的遥感图像目标检测方法,其特征在于,步骤3中,生成与图片坐标轴平行的候选框的具体方法为:
将生成的掩码只下采样到P3~P6层,得到采样后的掩码,然后把它们分别与对应层的金字塔特征点乘,得到点乘后的特征向量,然后把它输入区域候选网络中,分别进行回归和softmax操作,得到多个与坐标轴平行的候选框坐标,以及前景和背景的值。
8.根据权利要求1所述的融合语义分割的遥感图像目标检测方法,其特征在于,步骤4中,生成与坐标轴平行/旋转的边界框的位置信息和物体类别信息的具体方法为:
将多层FPN特征和语义特征相加起来,形成一个特征映射,此处的特征映射通道数为256,将水平区域候选框坐标映射在上面,映射的规则为将候选框的坐标除以“输入图片与FPN多层特征和语义特征相加得到的特征映射的比值,得到在该特征映射上的候选框坐标,将这些坐标通过池化操作,得到大小固定的候选框,将它输入全连接层,与给定的权重A进行矩阵相乘,获得一个池化特征F1,经过全连接层,特征的通道数由原来的256个变成1024个;
将原始图像归一化,形成一个特征映射,此处的特征映射通道数为3,将上述正负比为1:3的多个水平区域候选框坐标映射在上面,映射的规则为将候选框的坐标除以“输入图片与归一化后的原始图像的比值”,得到在此特征映射上的候选框坐标,将这些坐标通过池化操作,得到另外一些大小固定的候选框,将它输入到另一个全连接层,与给定的权重B进行矩阵相乘,获得池化特征F2,经过全连接层,特征的通道数由原来的3个变成1024个;
将这两个池化特征相加再通过第三个全连接层,与给定的权重C进行矩阵相乘,得到边界框特征F3,经过全连接层,特征的通道数保持1024个不变,然后将该边界框特征一方面进行回归操作得到与坐标轴平行/旋转的边界框的位置信息;另一方面进行softmax操作得到物体的类别信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910820020.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文档识别的方法、设备和存储介质
- 下一篇:一种图像处理方法、装置及系统