[发明专利]基于马尔科夫决策过程的水下声呐小目标检测方法在审
申请号: | 202211459901.8 | 申请日: | 2022-11-16 |
公开(公告)号: | CN116152648A | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 罗逸豪;邵成;高琪琪;沈锐;麻昔;路伟;王德亮 | 申请(专利权)人: | 宜昌测试技术研究所 |
主分类号: | G06V20/05 | 分类号: | G06V20/05;G06V10/80;G06V10/82;G06N3/084;G06N3/0464 |
代理公司: | 北京艾纬铂知识产权代理有限公司 16101 | 代理人: | 许姣 |
地址: | 443003 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 马尔科夫 决策 过程 水下 声呐 目标 检测 方法 | ||
1.一种基于马尔科夫决策过程的水下声呐小目标检测方法,其特征在于,包括:
步骤1:构建基于深度学习的目标检测模型,加载预训练模型和声呐图像数据集,初始化模型训练的初始参数;
步骤2:定义所述目标检测模型的状态空间S、状态转移概率P、奖励值R;
步骤3:定义动态特征融合的动作集合A和策略π,策略π依据概率决定在当前状态执行何种动作更新特征融合的参数;
步骤4:定义补偿尺度训练的动作集合A′和策略π′,策略π′依据概率决定在当前状态执行何种动作更新损失函数中各尺度的权重;
步骤5:开始模型训练,对每一次迭代输入的训练集图像进行处理,在每一次迭代区间σ内;统计多尺度损失值,按照所述步骤2中的定义为每个时刻的状态St和奖励赋值;
步骤6:根据所述奖励值R按照步骤3和步骤4的公式计算策略π和策略π′,并根据所得概率选择对应的动作ak和a′k,对当前时刻的特征融合权重与多尺度损失值权重进行更新;
步骤7:计算总体损失,进行反向传播更新模型参数,直到训练达到迭代次数。
2.如权利要求1所述的基于马尔科夫决策过程的水下声呐小目标检测方法,其特征在于,所述步骤1包括:所述基于深度学习的目标检测模型采用ATSS模型进行构建;其中特征金字塔网络(FPN)层数为5,生成金字塔特征的过程如下所示:
其中表示各个特征级别的1×1卷积,↑2×表示最邻近插值2倍上采样;对特征融合引入权重因子后的表达式如下:
其中为特征融合时的权重值,是一个随着时刻t变化的实数,表示权重值向量:
补偿尺度训练对多尺度损失进行加权,各尺度的权重为wi,t;wt表示权重值向量:[w2,t,w3,t,w4,t,w5,t,w6,t];引入权重后的总体损失值如下:
3.如权利要求2所述的基于马尔科夫决策过程的水下声呐小目标检测方法,其特征在于,所述步骤2包括:在检测器训练期间,随着训练的进行,固定迭代区间内所产生的损失值之和形成一个按时间排序的序列,如下所示:
其中n为当前迭代,T为总迭代次数,i表示金字塔各尺度级别的索引;为了避免损失序列中产生异常值,引入了迭代区间超参数σ对固定区间内的损失值做平均处理;更进一步,对每一个尺度的损失值做标准化处理,选择线性标准化,如下所示:
状态空间S={s1,s2,s3,…,st′},其中t′为训练结束的时刻。每一个时刻的状态反映训练过程中目标检测模型的归一化损失值状态,即检测器在训练开始时每个状态的值是未知的,随着训练进行每个状态才会被赋值。并且状态st在下一时刻必定为st+1,转移概率即智能体执行的动作不影响状态转移,只会改变状态的值;
根据每一时刻最大奖励值来进行强化学习智能体的动作执行,代表智能体在St-1时做出了动作At-1后,在St时反馈的奖励值,计算公式如下:
相邻两个时刻的总体损失值下降的比例越大,奖励值就越大,而对于总体损失上升的情况,奖励值为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宜昌测试技术研究所,未经宜昌测试技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211459901.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:不间断电源设备
- 下一篇:一种绝缘子激光清洗无人机系统