[发明专利]一种基于深度强化学习的SAR图像目标检测方法有效
申请号: | 201810111242.6 | 申请日: | 2018-02-05 |
公开(公告)号: | CN108764006B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 高飞;岳振宇;熊庆旭;王俊;孙进平 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;贾玉忠 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于深度强化学习的SAR图像目标检测方法,包括以下步骤:S1:设置迭代次数,每次迭代过程中,对训练集中图像依次进行处理;S2:从训练集中输入图像,利用马尔科夫决策过程生成训练样本;S3:随机地选取一定数目的样本,采用梯度下降法对Q‑network进行训练,获取缩小后的观测区域的状态,生成下一个样本,直到满足预先设置的终止条件,该图像的处理过程结束;S4:返回步骤S2,继续从训练集中输入下一图像,直至所有图像处理结束,本次迭代过程结束;S5:继续下一次迭代过程,直至满足设置的迭代次数,Q‑network的网络参数确定;S6:通过已训练好的Q‑network,对测试集中的图像进行目标检测,输出检测结果。本发明在SAR图像目标检测上取得了良好的检测精度。 | ||
搜索关键词: | 一种 基于 深度 强化 学习 sar 图像 目标 检测 方法 | ||
【主权项】:
1.一种基于深度强化学习的SAR图像目标检测方法,其特征在于,其训练过程包括以下几个步骤:(1)设置一定的迭代次数,每次迭代的过程中,对训练集中图像依次进行处理;(2)从训练集中输入图像,利用马尔科夫决策过程(MDP)生成训练样本,具体过程为:定义状态空间S,动作空间A以及奖赏方程R,每一个检测步骤中,假设输入图像处于状态s∈S,从动作空间A中选择动作a,对输入图像进行检测操作,操作结束后图像状态转移为状态s',根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r,其中,输入图像的状态s由特征向量与记忆向量组成,特征向量通过已训练好的卷积神经网络(CNN)模型提取,记忆向量中存储了在搜索目标的过程中最近执行的4个动作,CNN模型共包含7层,其中,Conv2D表示二维卷积层,MaxPooling2D表示降采样层,Flatten层将多维的输入一维化,输出层Softmax层采用Softmax分类器;根据输入图像的状态s,利用ε贪心算法从动作空间A选择一个搜索动作a,缩小图像的观测区域,在ε贪心算法中,ε为预先设定好的数值,范围在[0,1]之间;每次选择时,首先生成一个范围在[0,1]之间的随机数,如果该随机数的范围在[0,ε]之间,就以均匀概率随机选取一个动作,如果该随机数的范围在[ε,1]之间,则根据深度神经网络Q‑network选择奖赏最高的动作,Q‑network由3层全连接层组成,每层所包含的神经元数目分别为1024,1024,6,Q‑network的输入为图像的状态,输出层中6个神经元的激活值代表6种动作的奖赏,选择执行最高奖赏对应的动作,ε的初始值为1,迭代次数每增加一次,ε减小0.1,且减至0.1时不再减小;动作空间A共包含6种不同的动作,分为两大类,移动动作和结束动作,其中,移动动作共有5种,分别将当前的搜索区域缩小为不同的子区域,结束动作表明当前搜索区域为目标区域,不需要执行移动动作,搜索过程结束;利用奖赏函数R计算反馈奖赏r,奖赏函数R根据动作种类的不同,计算方法也不同。移动动作的奖赏函数为:Rm=sign(IoU(b',g)‑IoU(b,g))其中,Rm表示执行移动动作的奖赏值,下标m表示移动动作(movement action),b'为执行移动动作之后的观测区域范围,b为执行移动动作之前的观测区域范围,g为目标所在的位置范围(ground truth),sign为符号函数,IoU为检测评价函数,其计算方法为:检测结果与ground truth的交集与二者并集的比值,即检测准确率,如下式所示,移动动作奖赏函数的意义为:如果决策使检测准确率提高,则奖赏为正,否则奖赏为负;结束动作的奖赏函数为:其中,Rt表示结束动作的奖赏值,下标t表示结束动作(terminal action),η的值为3,即设定的奖赏值,τ为设定的阈值,其数值为0.5,该奖赏函数的意义为:当终止检测过程时,如果检测准确率不小于设定的阈值τ,则奖赏为正,否则奖赏为负;初始化样本容量为1000的经验池,将本次决策生成的样本(s,a,r,s')存入经验池中,其中,a为执行的动作,s为执行动作a之前的状态,s'为执行动作a之后的状态,r为状态转移过程中获取的奖赏,当经验池存满时,新样本将随机地替换已存样本,经验池可以解决由相邻样本间的连续性造成的Q‑network训练过程中的效率低和不稳定等问题;(3)随机地选取一定数目的样本,采用梯度下降法对Q‑network进行训练,获取缩小后的观测区域的状态,生成下一个样本,直到满足预先设置的终止条件,该图像的处理过程结束,具体过程为:首先,从经验池中随机的抽取100个样本X={x|x=(s,a,r,s')},将执行动作a之前的状态s作为Q‑network的输入,定义损失函数:其中,Q(s,a,ω)为网络的实际输出,为网络的期望输出,r为当前的奖赏值,为下次决策奖赏的最大值,γ为折扣系数,其数值为0.9。网络参数ω关于损失函数的梯度为:随后,采用随机梯度下降法更新网络的参数ω,对Q‑network进行训练;最后,获取缩小后的观测区域的状态,继续生成下一个样本,直到该图像生成的样本数目超过5个或者ε贪心策略选择结束动作时,该图像的处理过程结束;(4)返回步骤S2,继续从训练集中输入下一图像,直至所有图像处理结束,本次迭代过程结束;(5)继续下一次迭代过程,直至满足设置的迭代次数,训练过程结束,Q‑network的网络参数确定;其测试过程为,通过已训练好的神经网络Q‑network,对测试集中的图像进行目标检测,输出检测结果,具体过程为:首先,从测试集中输入图像,利用已训练好的CNN模型提取图像的特征,得到特征向量;初始化记忆向量,并将特征向量与记忆向量组合成为输入图像的状态s;随后,将状态s作为Q‑network的输入,并根据其输出选择动作a,缩小目标所在的范围;最后,获取缩小后的观测区域的状态,并根据Q‑network选择动作,进一步缩小目标所在的范围,直到根据Q‑network的输出选择结束动作或者循环次数超过5次时,检测过程结束,目标位置确定,输出检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810111242.6/,转载请声明来源钻瓜专利网。