[发明专利]一种基于强化学习的不规则缺陷漏磁信号反演方法有效
申请号: | 201910349592.0 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110096790B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 张化光;付雪薇 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08;G06F113/14 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李运萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 不规则 缺陷 信号 反演 方法 | ||
1.一种基于强化学习的不规则缺陷漏磁信号反演方法,其特征在于:包括如下步骤:
步骤1:已知待估计不规则缺陷的参数target_state产生的轴向漏磁信号Bx_real,随机初始化不规则缺陷形状参数initial_state有n个自由度,每个自由度对应一个分量,该分量代表在该自由度对应的轴向位置上缺陷的形状参数,即缺陷深度占管道厚度的百分比,其中管道缺陷参数具有如下规律:进行缺陷参数的初始化方法为:首先,通过直接法得到最深的中心点或的初始值;其次,除中心点或以外的点能在上述不等式所确定的缺陷参数范围中随机初始化;计算初始误差initial_err,并将其值赋给pre_err;
初始误差initial_err的计算公式如下:
initial_err=(Bx_real[i]-Bx_sim[i])2
其中,Bx_real是实际测量的轴向信号,Bx_sim是初始化的缺陷产生的仿真轴向信号,i是采样点序列号,共有m个采样点;
步骤2:建立两个结构相同的价值神经网络,包括价值神经网络1和价值神经网络2;并对两个价值神经网络的参数进行初始化;价值神经网络1用于在迭代选择动作时产生动作价值,每次迭代都会根据随机梯度下降法进行训练并更新参数;价值神经网络2的输出用于在训练神经网络时作为训练目标,每到间隔人为设定的迭代次数时会对价值神经网络2参数进行更新,即将价值网络1的参数赋给价值网络2;
两个价值神经网络中的每个价值网络都包括输入层、输出层和隐藏层,以initial_state作为输入,则输入节点个数为n,隐藏层的激活函数用relu函数,输出层节点数为2n个,则代表输出2n个动作,每个动作代表在一个自由度上进行加或减操作;
步骤3:将步骤1中的初始缺陷形状参数initial_state赋给state,将state输入价值神经网络1中,价值神经网络1输出2n个动作价值,根据该状态下每个动作的价值用ε-greedy方法选择动作action;
所述ε-greedy方法是以ε的小概率随机选择一个动作,而以1-ε的概率选择价值最大的动作;表达式为:
其中,Q(state,action,w)为价值网络1在状态state下的输出价值,其中state为估计缺陷的形状参数,w为神经网络的权重,p代表当前概率,random代表随机选择一个动作,ε为采用随机的方式选择一个动作的概率;
步骤4:根据选择的动作action迭代出下一个估计的缺陷参数next_state=state+action;
步骤5:将迭代得到的next_state输入正向有限元模型中,产生对应的仿真漏磁信号Bx_sim_n,计算Bx_sim_n和实际漏磁信号Bx_real之间的误差err;
步骤6:根据err、pre_err、initial_err的值,计算此次迭代的奖励reward;将当前迭代的误差err与上一次迭代的误差pre_err、从之前迭代产生误差里面随机抽取的误差random_err和initial_err进行比较,仅当err同时小于这三者时,reward=+1,否则reward=-1;
步骤7:将此次迭代相关的变量组存储至记忆库,变量组包括state,action,reward,next_state,err;存储方式为顺序存储,当记忆库存储满时新的变量组会覆盖记忆库中存储最早的变量组;
步骤8:判断记忆库是否已经存满,若存满则从记忆库中批量随机抽取变量组并根据批量抽取样本的随机梯度下降法进行参数学习,学习后执行步骤9;若未存满则执行步骤9;
所述批量抽取样本的随机梯度下降法中的损失函数为:
L(ω)=E[(R+γ·maxaQ(next_state,a,ω-)-Q(state,action,ω))2]
其中R为随机批量抽取的变量组中reward构成的向量,γ为折扣因子,Q(next_state,a,ω-)为输入为next_state时神经网络2输出的所有动作价值,其中ω-为神经网络2的参数,在公式中取输出价值的最大值,而Q(state,action,ω)为神经网络1在输入为state且输出对应action的价值,其中ω为神经网络1的参数,E是代表(R+γ·maxaQ(next_state,a,ω-)-Q(state,action,ω))的均值,a代表所有动作解空间;
步骤9:判断是否满足终止条件,若否则执行步骤10;若是则按照终止条件执行;所述终止条件为两种,一种是局部终止条件,局部终止条件是指当迭代产生的next_state在任意一个自由度下面的分量偏离目标缺陷参数target_state相应分量且偏移大于阈值1时,此次迭代终止,重新初始化缺陷参数,将该参数输入到价值神经网络1中,执行步骤3;另一种是全局终止条件,全局终止条件是指当信号误差err小于阈值2时,执行步骤11;所述阈值1和阈值2是根据人为的需求设置;
重新初始化缺陷参数方法如下:判断记忆库中是否已经存储满,若没有存满则将步骤1中的作为缺陷参数;若存储满了,要从记忆库中选择和Bx_real的误差最小的缺陷,并比较其误差err和之前的初始化缺陷的误差initial_err,若errinitial_err,则将对应的state作为再次初始化时候的initial_state;若err≥initial_err,则initial_state保持不变,重新初始化后将initial_state的值赋给state,执行步骤3
步骤10:将next_state的值赋给state,将err的值赋给pre_err,执行步骤3;
步骤11:反演结束,得到估计的缺陷形状参数;
步骤12:根据已知的管道壁厚度和步骤11中得到的缺陷形状参数获得缺陷深度序列,通过该序列最终得到不规则缺陷的形状。
2.根据权利要求1所述的一种基于强化学习的不规则缺陷漏磁信号反演方法,其特征在于:所述步骤3中的估计缺陷的形状参数state是以一维数组的形式表现,数组的每个分量代表估计的缺陷在该自由度下的形状参数,通过此方式表达不规则缺陷形状。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910349592.0/1.html,转载请声明来源钻瓜专利网。