[发明专利]一种基于深度强化学习的SAR图像目标检测方法有效

专利信息
申请号: 201810111242.6 申请日: 2018-02-05
公开(公告)号: CN108764006B 公开(公告)日: 2021-11-02
发明(设计)人: 高飞;岳振宇;熊庆旭;王俊;孙进平 申请(专利权)人: 北京航空航天大学
主分类号: G06K9/00 分类号: G06K9/00;G06N3/04;G06N3/08
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 杨学明;贾玉忠
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于深度强化学习的SAR图像目标检测方法,包括以下步骤:S1:设置迭代次数,每次迭代过程中,对训练集中图像依次进行处理;S2:从训练集中输入图像,利用马尔科夫决策过程生成训练样本;S3:随机地选取一定数目的样本,采用梯度下降法对Q‑network进行训练,获取缩小后的观测区域的状态,生成下一个样本,直到满足预先设置的终止条件,该图像的处理过程结束;S4:返回步骤S2,继续从训练集中输入下一图像,直至所有图像处理结束,本次迭代过程结束;S5:继续下一次迭代过程,直至满足设置的迭代次数,Q‑network的网络参数确定;S6:通过已训练好的Q‑network,对测试集中的图像进行目标检测,输出检测结果。本发明在SAR图像目标检测上取得了良好的检测精度。
搜索关键词: 一种 基于 深度 强化 学习 sar 图像 目标 检测 方法
【主权项】:
1.一种基于深度强化学习的SAR图像目标检测方法,其特征在于,其训练过程包括以下几个步骤:(1)设置一定的迭代次数,每次迭代的过程中,对训练集中图像依次进行处理;(2)从训练集中输入图像,利用马尔科夫决策过程(MDP)生成训练样本,具体过程为:定义状态空间S,动作空间A以及奖赏方程R,每一个检测步骤中,假设输入图像处于状态s∈S,从动作空间A中选择动作a,对输入图像进行检测操作,操作结束后图像状态转移为状态s',根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r,其中,输入图像的状态s由特征向量与记忆向量组成,特征向量通过已训练好的卷积神经网络(CNN)模型提取,记忆向量中存储了在搜索目标的过程中最近执行的4个动作,CNN模型共包含7层,其中,Conv2D表示二维卷积层,MaxPooling2D表示降采样层,Flatten层将多维的输入一维化,输出层Softmax层采用Softmax分类器;根据输入图像的状态s,利用ε贪心算法从动作空间A选择一个搜索动作a,缩小图像的观测区域,在ε贪心算法中,ε为预先设定好的数值,范围在[0,1]之间;每次选择时,首先生成一个范围在[0,1]之间的随机数,如果该随机数的范围在[0,ε]之间,就以均匀概率随机选取一个动作,如果该随机数的范围在[ε,1]之间,则根据深度神经网络Q‑network选择奖赏最高的动作,Q‑network由3层全连接层组成,每层所包含的神经元数目分别为1024,1024,6,Q‑network的输入为图像的状态,输出层中6个神经元的激活值代表6种动作的奖赏,选择执行最高奖赏对应的动作,ε的初始值为1,迭代次数每增加一次,ε减小0.1,且减至0.1时不再减小;动作空间A共包含6种不同的动作,分为两大类,移动动作和结束动作,其中,移动动作共有5种,分别将当前的搜索区域缩小为不同的子区域,结束动作表明当前搜索区域为目标区域,不需要执行移动动作,搜索过程结束;利用奖赏函数R计算反馈奖赏r,奖赏函数R根据动作种类的不同,计算方法也不同。移动动作的奖赏函数为:Rm=sign(IoU(b',g)‑IoU(b,g))其中,Rm表示执行移动动作的奖赏值,下标m表示移动动作(movement action),b'为执行移动动作之后的观测区域范围,b为执行移动动作之前的观测区域范围,g为目标所在的位置范围(ground truth),sign为符号函数,IoU为检测评价函数,其计算方法为:检测结果与ground truth的交集与二者并集的比值,即检测准确率,如下式所示,移动动作奖赏函数的意义为:如果决策使检测准确率提高,则奖赏为正,否则奖赏为负;结束动作的奖赏函数为:其中,Rt表示结束动作的奖赏值,下标t表示结束动作(terminal action),η的值为3,即设定的奖赏值,τ为设定的阈值,其数值为0.5,该奖赏函数的意义为:当终止检测过程时,如果检测准确率不小于设定的阈值τ,则奖赏为正,否则奖赏为负;初始化样本容量为1000的经验池,将本次决策生成的样本(s,a,r,s')存入经验池中,其中,a为执行的动作,s为执行动作a之前的状态,s'为执行动作a之后的状态,r为状态转移过程中获取的奖赏,当经验池存满时,新样本将随机地替换已存样本,经验池可以解决由相邻样本间的连续性造成的Q‑network训练过程中的效率低和不稳定等问题;(3)随机地选取一定数目的样本,采用梯度下降法对Q‑network进行训练,获取缩小后的观测区域的状态,生成下一个样本,直到满足预先设置的终止条件,该图像的处理过程结束,具体过程为:首先,从经验池中随机的抽取100个样本X={x|x=(s,a,r,s')},将执行动作a之前的状态s作为Q‑network的输入,定义损失函数:其中,Q(s,a,ω)为网络的实际输出,为网络的期望输出,r为当前的奖赏值,为下次决策奖赏的最大值,γ为折扣系数,其数值为0.9。网络参数ω关于损失函数的梯度为:随后,采用随机梯度下降法更新网络的参数ω,对Q‑network进行训练;最后,获取缩小后的观测区域的状态,继续生成下一个样本,直到该图像生成的样本数目超过5个或者ε贪心策略选择结束动作时,该图像的处理过程结束;(4)返回步骤S2,继续从训练集中输入下一图像,直至所有图像处理结束,本次迭代过程结束;(5)继续下一次迭代过程,直至满足设置的迭代次数,训练过程结束,Q‑network的网络参数确定;其测试过程为,通过已训练好的神经网络Q‑network,对测试集中的图像进行目标检测,输出检测结果,具体过程为:首先,从测试集中输入图像,利用已训练好的CNN模型提取图像的特征,得到特征向量;初始化记忆向量,并将特征向量与记忆向量组合成为输入图像的状态s;随后,将状态s作为Q‑network的输入,并根据其输出选择动作a,缩小目标所在的范围;最后,获取缩小后的观测区域的状态,并根据Q‑network选择动作,进一步缩小目标所在的范围,直到根据Q‑network的输出选择结束动作或者循环次数超过5次时,检测过程结束,目标位置确定,输出检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810111242.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top