[发明专利]一种基于深度强化学习的SAR图像目标检测方法有效

申请号：	201810111242.6	申请日：	2018-02-05
公开（公告）号：	CN108764006B	公开（公告）日：	2021-11-02
发明（设计）人：	高飞;岳振宇;熊庆旭;王俊;孙进平	申请（专利权）人：	北京航空航天大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	杨学明;贾玉忠
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于深度强化学习的SAR图像目标检测方法，包括以下步骤：S1：设置迭代次数，每次迭代过程中，对训练集中图像依次进行处理；S2：从训练集中输入图像，利用马尔科夫决策过程生成训练样本；S3：随机地选取一定数目的样本，采用梯度下降法对Q‑network进行训练，获取缩小后的观测区域的状态，生成下一个样本，直到满足预先设置的终止条件，该图像的处理过程结束；S4：返回步骤S2，继续从训练集中输入下一图像，直至所有图像处理结束，本次迭代过程结束；S5：继续下一次迭代过程，直至满足设置的迭代次数，Q‑network的网络参数确定；S6：通过已训练好的Q‑network，对测试集中的图像进行目标检测，输出检测结果。本发明在SAR图像目标检测上取得了良好的检测精度。
搜索关键词：	一种基于深度强化学习 sar 图像目标检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度强化学习的SAR图像目标检测方法，其特征在于，其训练过程包括以下几个步骤：(1)设置一定的迭代次数，每次迭代的过程中，对训练集中图像依次进行处理；(2)从训练集中输入图像，利用马尔科夫决策过程(MDP)生成训练样本，具体过程为：定义状态空间S，动作空间A以及奖赏方程R，每一个检测步骤中，假设输入图像处于状态s∈S，从动作空间A中选择动作a，对输入图像进行检测操作，操作结束后图像状态转移为状态s'，根据奖赏函数R反馈一个用于评价本次操作的一个奖赏值r，其中，输入图像的状态s由特征向量与记忆向量组成，特征向量通过已训练好的卷积神经网络(CNN)模型提取，记忆向量中存储了在搜索目标的过程中最近执行的4个动作，CNN模型共包含7层，其中，Conv2D表示二维卷积层，MaxPooling2D表示降采样层，Flatten层将多维的输入一维化，输出层Softmax层采用Softmax分类器；根据输入图像的状态s，利用ε贪心算法从动作空间A选择一个搜索动作a，缩小图像的观测区域，在ε贪心算法中，ε为预先设定好的数值，范围在[0,1]之间；每次选择时，首先生成一个范围在[0,1]之间的随机数，如果该随机数的范围在[0,ε]之间，就以均匀概率随机选取一个动作，如果该随机数的范围在[ε,1]之间，则根据深度神经网络Q‑network选择奖赏最高的动作，Q‑network由3层全连接层组成，每层所包含的神经元数目分别为1024,1024,6，Q‑network的输入为图像的状态，输出层中6个神经元的激活值代表6种动作的奖赏，选择执行最高奖赏对应的动作，ε的初始值为1，迭代次数每增加一次，ε减小0.1，且减至0.1时不再减小；动作空间A共包含6种不同的动作，分为两大类，移动动作和结束动作，其中，移动动作共有5种，分别将当前的搜索区域缩小为不同的子区域，结束动作表明当前搜索区域为目标区域，不需要执行移动动作，搜索过程结束；利用奖赏函数R计算反馈奖赏r，奖赏函数R根据动作种类的不同，计算方法也不同。移动动作的奖赏函数为：Rm＝sign(IoU(b',g)‑IoU(b,g))其中，Rm表示执行移动动作的奖赏值，下标m表示移动动作(movement action)，b'为执行移动动作之后的观测区域范围，b为执行移动动作之前的观测区域范围，g为目标所在的位置范围(ground truth)，sign为符号函数，IoU为检测评价函数，其计算方法为：检测结果与ground truth的交集与二者并集的比值，即检测准确率，如下式所示，移动动作奖赏函数的意义为：如果决策使检测准确率提高，则奖赏为正，否则奖赏为负；结束动作的奖赏函数为：其中，Rt表示结束动作的奖赏值，下标t表示结束动作(terminal action)，η的值为3，即设定的奖赏值，τ为设定的阈值，其数值为0.5，该奖赏函数的意义为：当终止检测过程时，如果检测准确率不小于设定的阈值τ，则奖赏为正，否则奖赏为负；初始化样本容量为1000的经验池，将本次决策生成的样本(s,a,r,s')存入经验池中，其中，a为执行的动作，s为执行动作a之前的状态，s'为执行动作a之后的状态，r为状态转移过程中获取的奖赏，当经验池存满时，新样本将随机地替换已存样本，经验池可以解决由相邻样本间的连续性造成的Q‑network训练过程中的效率低和不稳定等问题；(3)随机地选取一定数目的样本，采用梯度下降法对Q‑network进行训练，获取缩小后的观测区域的状态，生成下一个样本，直到满足预先设置的终止条件，该图像的处理过程结束，具体过程为：首先，从经验池中随机的抽取100个样本X＝{x|x＝(s,a,r,s')}，将执行动作a之前的状态s作为Q‑network的输入，定义损失函数：其中，Q(s,a,ω)为网络的实际输出，为网络的期望输出，r为当前的奖赏值，为下次决策奖赏的最大值，γ为折扣系数，其数值为0.9。网络参数ω关于损失函数的梯度为：随后，采用随机梯度下降法更新网络的参数ω，对Q‑network进行训练；最后，获取缩小后的观测区域的状态，继续生成下一个样本，直到该图像生成的样本数目超过5个或者ε贪心策略选择结束动作时，该图像的处理过程结束；(4)返回步骤S2，继续从训练集中输入下一图像，直至所有图像处理结束，本次迭代过程结束；(5)继续下一次迭代过程，直至满足设置的迭代次数，训练过程结束，Q‑network的网络参数确定；其测试过程为，通过已训练好的神经网络Q‑network，对测试集中的图像进行目标检测，输出检测结果，具体过程为：首先，从测试集中输入图像，利用已训练好的CNN模型提取图像的特征，得到特征向量；初始化记忆向量，并将特征向量与记忆向量组合成为输入图像的状态s；随后，将状态s作为Q‑network的输入，并根据其输出选择动作a，缩小目标所在的范围；最后，获取缩小后的观测区域的状态，并根据Q‑network选择动作，进一步缩小目标所在的范围，直到根据Q‑network的输出选择结束动作或者循环次数超过5次时，检测过程结束，目标位置确定，输出检测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810111242.6/，转载请声明来源钻瓜专利网。

上一篇：一种高光谱遥感图像地物空间波谱特征提取方法及系统
下一篇：基于OCR与文本分析技术对注意力的测量方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的SAR图像目标检测方法有效

专利文献下载