[发明专利]一种基于场景预分类的光学遥感图像语句描述生成方法有效

申请号：	201911155068.6	申请日：	2019-11-22
公开（公告）号：	CN110991284B	公开（公告）日：	2022-10-18
发明（设计）人：	史振威;马小锋;赵睿;陈科研;张宁;韩传钊;章泉源;朱新忠;张瑞珏	申请（专利权）人：	北京航空航天大学;上海航天电子通讯设备研究所
主分类号：	G06V20/13	分类号：	G06V20/13;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08
代理公司：	北京慧泉知识产权代理有限公司 11232	代理人：	李娜;王顺荣
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于场景分类光学遥感图像语句描述生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于场景预分类的光学遥感图像语句描述生成方法，其特征在于：该方法的具体步骤如下：

步骤一：制作数据集；

步骤二：搭建网络模型；该模型包括数据输入模块、语义特征提取模块、场景分类模块、3D注意力模块、语句描述生成模块；数据输入模块包括数据预处理、搭建数据流两个功能类；语义特征提取模块采用参数共享的方式，将输入图像映射成大小为49×2048的特征矩阵；场景分类模块包括分类预测层、交叉熵损失函数以及优化器，用于训练场景分类任务；3D注意力模块是在空间注意力的基础上，增加了模型对不同尺度特征的应用能力；语句描述生成模块由LSTM和解码网络构成，用于预测生成的单词；

步骤三：训练整个模型；先用数据集对场景分类分支进行预训练，在得到稳定的模型后，再对语句描述生成分支进行训练，最后对二者进行联合调优；在训练语句描述生成分支时，将场景分类任务的结果用于损失函数设计，对模型识别错误的数据对应的损失进行抑制，避免场景识别错误的数据给语句生成模块带来数据噪声干扰；

步骤四：光学遥感图像语句描述生成；模型通过集束搜索的方式生成描述图像内容的语句。

2.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法，其特征在于：所述的语句描述生成模块，还包含有一个用于测试阶段生成语句结果的功能函数，称为集束搜索函数，用于搜索得到最优的描述语句。

3.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法，其特征在于：所述步骤二搭建整个网络模型的具体步骤如下：

S21、编写数据输入类：class DataSet()；

S22、构建特征提取网络：defbuild_feat()；

S23、构建场景分类分支：以步骤S22中的输出为输入，构建场景分类分支；

S24、3D注意力模块：该模块用于计算分配注意力的系数矢量；初始时间步采用步骤S22的输出和“start”常向量作为输入，在迭代过程中采用步骤S22和步骤S25的输出作为该模块的输入；

S25 、构建语句描述生成分支：将步骤S22、S24的输出向量进行点乘作为当前步骤的图像内容输入，用于下一个时间步的迭代。

4.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法，其特征在于：所述步骤三训练整个模型的过程如下：

S31、场景分类分支优化方法选择动量优化器；

S32、采用迁移模型图像语义特征提取网络的权重进行初始化；