[发明专利]基于深度强化学习的Faster-RCNN目标物体检测方法有效
申请号: | 202010269277.X | 申请日: | 2020-04-08 |
公开(公告)号: | CN111476302B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 于重重;杨鑫;王鑫;冯文彬 | 申请(专利权)人: | 北京工商大学;煤科集团沈阳研究院有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/25;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 faster rcnn 目标 物体 检测 方法 | ||
1.一种基于深度强化学习的Faster-RCNN目标物体检测方法,采用深度强化学习的经验池保存每个时刻的区域生成网络RPN模型的状态,采用卷积门控循环单元输出两个动作,采用随机策略选择执行相应的动作,同时采用自定义的非极大值抑制方法去除冗余的检测框,获得与标注框最接近的检测框;采用分类网络对检测框进行分类,对检测框进行二次回归,实现对目标物体的检测与识别;包括如下步骤:
A.选取模型训练的训练图像样本Ui和测试图像样本Li;
设迭代总次数为T,从1到T每次迭代训练依次执行步骤B-F:
B.采用空洞空间金字塔池化模块搭建特征提取网络模型:
特征提取网络模型包含四个连续任务阶段:Block1、Block2、Block3和Block4,每个阶段均包含提取局部特征、下采样、归一化处理和非线性映射四个操作,并采用多尺度特征融合技术;网路模型包括卷积层、池化层、批量规范化处理和激活函数,其中卷积层和池化层用于实现特征提取和下采样,批量规范化处理用于进行归一化,激活函数用于进行非线性映射;
C.将一个任意尺度的图片特征作为区域生成网络模型的输入,输出一系列的区域候选框提议,每个区域候选框提议均包含一个目标分数;
使用全卷积网络进行建模区域生成网络模型;为生成区域候选框提议,在步骤B得到的卷积特征图上滑动一个m×m大小的窗口,每个滑动窗口都映射到一个较低维的特征;
包括如下操作:
C1.在每个滑动窗口位置,同时预测多个区域候选框提议,其中每个滑动窗口位置的最大可能区域候选框提议的数目表示为a;
C1.1区域生成网络头部生成a个锚点;
C1.2对于回归分支,每个锚点输出4个预测值,分别为:x,y,w,h,用于调整锚点的边框来得到最终的区域候选框提议;对于目标和背景的二分类分支,每个锚点输出两个预测值:锚点是背景的得分和锚点是目标的得分;
C1.3针对所有锚点划分正负样本,得到正样本锚点和负样本锚点;
C2.在区域生成网络中部,分类分支对C1中求得的锚点进行二分类,通过比较锚点和标注的目标包围框的重叠情况识别锚点是背景或是目标物体;边框回归分支利用卷积层对C1得到的锚点中属于目标物体的锚点求出目标物体位置;
C3.在区域生成网络尾部,通过分类分支和边框回归分支的结果实现对锚点的初步筛除和初步偏移,此时输出的目标包围框均称为区域候选框提议;
D.采用深度学习与强化学习结合的DQN方法,通过设置经验回放机制获取最优的检测框;包括如下操作:
D1.通过DQN方法的经验回放机制,将不同时刻的区域生成网络生成检测框过程构成一个记忆序列;
D2.采用卷积门控循环单元输出两通道的动作,采用卷积代替门控循环单元中的完全连接的组件得到卷积门控循环单元;包括:
D2.1将边界框回归、锚点分类、特征图、候选识别区域和搜索策略的隐层状态Ht作为DQN的基本状态;
D2.2卷积门控循环单元学习搜索策略;包括:
D2.2.1将DQN的基本状态输入到卷积门控循环单元中,其中DQN的基本状态包括特征图、区域生成网络中分类分支和回归分支的输出和搜索策略已经观测到的历史;
D2.2.2将卷积门控循环单元之前的隐层状态Ht状态输入到卷积门控循环单元中;
D2.3卷积门控循环单元的输出为两个动作:DQN的固定层动作和结束层动作;
结束层动作为二进制;当结束层动作为1时终止搜索;当结束层动作为0,则发出固定层动作,更新一部分候选识别区域;使用参数随机策略πθ对行动进行采样,固定层动作采用softmax逻辑回归函数将其转换为概率图形式;
D3.1在每个时间步长t,根据随机策略πθ决定是否终止搜索;进行搜索中发出固定层动作并访问新的位置;
D3.2候选识别区域观测量以新的位置为中心的区域中更新;
D3.3所有相应的候选识别区域均发送到候选识别区域池化层模块,进行分类和特定类别的目标包围框偏移量预测;
D3.4将特定类别的概率向量插入到DQN基本状态中;
基于新状态采取新动作,并重复该过程,直到发出结束层动作;再收集整个轨迹中的所有选定候选识别区域;
D4.保留历史过程中生成的高精度的候选识别区域,去除精度低的候选识别区域;包括:
D4.1采用自定义的非极大值抑制E-NMS预测目标包围框;自定义的E-NMS将目标包围框的预测值与标注框分别建模成指数分布函数和Deltaδ函数,通过相对熵来度量二者分布的相似性;
D4.2.1将自定义的E-NMS应用于已分类的候选识别区域,在该位置获得最显着的信息;
D4.2.2对尚存的候选识别区域最终的目标包围框预测,将它们映射到与特定类别相关联的类别概率向量;
D4.2.3使用D4.2.2中得到的类别概率向量作为移动平均值,更新这些位置处的特定类别相关联的检测框;
E.将卷积门控循环单元的输出通过线性分类器确定终止的概率;
F.根据奖励函数在测试集上的测试结果,不断的调整优化模型参数;包括:
F1为每个固定层动作给出一个小的负奖励-β;
F2对于当前图像的任何标记框示例,获得针对固定层动作的正奖励,产生更高的交并比;
F3终止后,收到反映搜索轨迹质量的最终奖励;
通过上述步骤,完成迭代训练基于深度强化学习的Faster-RCNN目标物体检测模型,得到训练好的基于深度强化学习的Faster-RCNN目标物体检测模型;
G.将待检测的目标物体图像输入到训练好的基于深度强化学习的Faster-RCNN目标物体检测模型,输出目标物体的分类,即实现基于深度强化学习的Faster-RCNN的目标物体检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学;煤科集团沈阳研究院有限公司,未经北京工商大学;煤科集团沈阳研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010269277.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:关于造价业务专业化分工协作落地操作方案
- 下一篇:一种胶囊分拣装置