[发明专利]一种基于自强化学习的遥感影像文本生成及优化方法有效
申请号: | 202110713496.7 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113312925B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 夏鲁瑞;林郁;李森;陈雪旗;张占月;王鹏;任昊利 | 申请(专利权)人: | 中国人民解放军战略支援部队航天工程大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06V20/13;G06V10/424;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 长沙市护航专利代理事务所(特殊普通合伙) 43220 | 代理人: | 莫晓齐 |
地址: | 101416*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 遥感 影像 文本 生成 优化 方法 | ||
1.一种基于自强化学习的遥感影像文本生成及优化方法,其特征在于,包括如下步骤:
步骤S1、遥感影像语义理解特征提取:将经过星上数据预处理及切片处理的航天遥感影像输入特征提取网络,提取对遥感影像进行语义理解的特征向量;
步骤S2、通过遥感影像获取训练集,对由遥感影像文本生成网络构成的文本生成模型进行预训练,提取文本生成模型参数;
步骤S3、将提取的特征向量、先验文本库、预训练后的文本生成模型参数以及用户的任务需求,输入到遥感影像文本生成网络,通过深度学习自然语言处理技术,将提取的特征向量表示的图像特征信息还原为文本描述;
所述先验文本库为训练集中附带的对应遥感影像的文本描述;
所述预训练后的文本生成模型参数为预训练特征提取模型参数;
所述遥感影像文本生成网络将图像特征信息还原为文本描述包括如下步骤:
步骤S31、通过遥感影像文本生成网络将图像特征信息还原为单词;
步骤S32、通过自强化模块对生成的单词进行优化,采用基于策略梯度算法的自强化学习遥感影像文本生成算法生成文本:在由所述遥感影像文本生成网络构成的文本生成模型中,通过文本生成的过程中,将所述先验文本库中采样的单词不断地与文本生成模型中生成的单词进行比较,奖励描述准确的单词,抑制描述不准确及错误的单词,以提高训练过程的收敛速度,并优化文本生成描述的质量。
2.根据权利要求1所述的一种基于自强化学习的遥感影像文本生成及优化方法,其特征在于,所述步骤S32中的采用所述基于策略梯度算法的自强化学习遥感影像文本生成算法生成文本,具体步骤为:
步骤S321、初始化参数,并根据策略采样;
文本生成模型定义为智能体agent,先验文本中的描述词和遥感影像特征定义为“环境”,模型参数θ看作策略pθ,生成单词的评价指标看作奖励值Rt,执行的动作看作预测的下一个单词;每经历一个动作,agent更新内部状态,每正确生成一个单词序列,agent得到一个正向激励;
步骤S322、计算期望函数;
期望函数表示为:
L(θ)=-EW-p[R(W)]
其中,W=(W1,W2,...,Wt),Wt表示t时刻从文本生成模型采样的单词,R(W)表示生成单词的评价指标,也即强化学习中的奖励值,训练的目标是最小化负期望函数;
步骤S323、引入策略梯度算法计算期望梯度:
式中,pθ(W)表示表示单词采样过程中的模型参数,表示表示对θ计算期望梯度;
对于minibatch中每个训练样例有:
步骤S324、计算基线减小方差;
在策略梯度算法中引入基线来减小方差,得到每个动作对于基线的奖励:
由于基线b可以是不依赖于动作Wt的任意函数,期望梯度不受基线b影响,并且能够减小梯度估计的方差;
对于每个训练样例,采用单个采样W~pθ近似估计期望梯度:
根据链式法则和模型参数pθ可得:
其中,St是经过GRU注意力机制后文本生成模型的输入,则有:
上式计算了期望函数关于输入的梯度值,其中Wt1是单词的one-hot向量表示,Ht代表t时刻的隐状态;
步骤S325、计算奖励值Rt并更新模型参数θ;
为了在不额外增加大量参数的前提下提升模型性能,自强化学习通过采用遥感影像文本生成过程中生成单词的奖励值作为基线;当生成单词优于基线时,该单词得到正向激励,否则,该单词得到抑制,以此更新模型参数;
步骤S326、当达到最大迭代次数时,输出模型参数;否则返回步骤S321。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队航天工程大学,未经中国人民解放军战略支援部队航天工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110713496.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双驱汽轮机转子应力监测方法
- 下一篇:一种富营养化河道水体的生态修复装置