[发明专利]一种基于强化学习与控制性能监测的智能自愈方法有效

专利信息
申请号: 201811110386.6 申请日: 2018-09-21
公开(公告)号: CN109460890B 公开(公告)日: 2021-08-06
发明(设计)人: 赵春晖;王婕 申请(专利权)人: 浙江大学
主分类号: G06Q10/06 分类号: G06Q10/06;G06N3/08;G06F17/16
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 黄欢娣;邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于强化学习与控制性能监测的智能自愈方法。本发明对待研究的生产制造过程建立动态模型,建立相应的奖励函数和目标函数,并结合神经网络,分别构造了值函数评价网络和设定值动作网络,解决了设定值难以连续调整的问题,在线地计算动态监测指标,对控制器的控制性能进行监测,并为自愈控制器提供变周期控制依据。该方法克服了重新建立精确过程动态模型的高成本问题,有效地解决了终端产品在线质量控制的问题通过改变控制周期可避免控制器的频繁调节带来的不稳定和过调等问题,保证了制造过程终端产品的质量,有助于提高产品质量稳定性及生产效率,从而提高了工业生产的经济效益。
搜索关键词: 一种 基于 强化 学习 控制 性能 监测 智能 自愈 方法
【主权项】:
1.一种基于强化学习与控制性能监测的智能自愈方法,其特征在于,该方法包括以下步骤:(1)获取待分析数据:设对一个生产制造过程选取J个过程变量,则在k时刻采样可以得到一个1×J的向量,称为过程向量x(k),一个批次过程结束,则可以得到一个K×J维的数据,其中K是一个批次中的采样次数,所述过程变量为运行过程中可被测量的状态参数;采集该批次的终端输出质量为y。(2)利用历史批次的数据,对时刻k的过程向量x(k)和终端输出质量进行预测,终端输出质量的预测结果表示为(3)定义奖励函数R(k)、目标函数J(k)及控制变量设定值u(k):由于制造过程总是希望终端输出产品质量符合生产者期望,根据生产者期望设定奖励函数R(k),计算公式如下:其中,y*是终端质量的期望值,是k时刻的质量预测值,Δ是容许质量误差值,构成了期望质量区间。R(k)越小,该批次产品的质量越符合期望。目标函数J(k)表示为从k时刻到批次结束时,每个采样时刻上预测质量误差平方的总和,定义为:其中,γ∈[0,1]是折扣因子。对目标函数进行化简,可将其分为两个部分,第一部分Ri(k)衡量了控制作用在当前时刻导致的质量偏差,第二部分γJ(k+1)衡量了控制作用在后续时刻对质量的影响,公式化简如下:控制变量为根据非优原因诊断或相关过程知识选择的待控制的变量,其设定值表示为u(k),过程初始设定值根据生产经验自行设定。(4)根据强化学习中的Actor‑Critic结构,建立自愈算法的主要部分,即构造设定值动作网络和值函数评价网络,该步骤由以下子步骤实现:(4.1)构建并训练值函数评价网络,该步骤由以下子步骤实现:(4.1.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程向量x(k)及待控制的变量设定值u(k),输出为目标函数J(k)。(4.1.2)在采样时刻k,根据神经网络中权值更新公式对评价网络权重系数Wc(k)进行更新:Wc(k+1)=Wc(k)+ΔWc(k)    (4)其中,lc(k)为k时刻的学习率,Ec(k)为训练误差。当训练误差小于训练阈值Tc,则表明目标函数已经能被准确预测和评价,训练停止,反之,表明评价网络需要继续训练。(4.2)构建并训练设定值动作网络,该步骤由以下子步骤实现:(4.2.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程变量x(k),输出为待控制的变量设定值u(k)。(4.2.2)在采样时刻k,根据神经网络中权值更新公式对动作网络权重系数Wa(k)进行更新:Wa(k+1)=Wa(k)+ΔWa(k)    (7)其中,la(k)为k时刻的学习率,Ea(k)为训练误差:当训练误差小于训练阈值Ta,则表明当前变量的设定值已经满足期望要求,训练停止,反之,表明评价网络需要继续训练。(5)利用SFA算法提取变量空间的快慢特征并计算动态监测指标,其中,SFA监测采样周期需要小于控制器的响应时间,该步骤由以下子步骤实现:(5.1)离线建立SFA模型,该步骤由以下子步骤实现:(5.1.1)训练数据获取:采样获取制造过程在正常工况下的一个批次的维数为K×J的过程变量X0作为输入数据。(5.1.2)训练数据标准化:对输入数据按列进行标准化,公式如下:其中,为X0中第i行第j列的数值xi,j标准化后的数值,为第j列的均值,sj为第j列的方差,标准化后得到训练数据X。(5.1.3)训练数据白化:对训练数据进行白化以去除训练数据X中的相关性,使得提取出的特征值携带不同的信息,具体操作是对t进行奇异值分解,生成白化矩阵Q,得到白化后的输入向量z,公式如下:t=UΛUT    (11)z=Λ‑1/2UTx=Qx    (12)Q=Λ‑1/2UT    (13)其中,<>t表示对时间进行积分;(5.1.4)计算转换矩阵,得到m个慢特征s:可以证明,对进行奇异值分解后,得到正交矩阵P,能使目标函数值最小,并且得到的一系列奇异值ωj即为函数值表示特征的缓慢度Δ(sj),正交矩阵P、转换矩阵W、特征值矩阵Ω及慢特征的计算公式如下:W=PQ=PΛ‑1/2UT    (15)Ω=diag(ω1,ω2,…ωm)    (16)s=Wx    (17)(5.1.5)划分快慢特征:将通过奇异值分解得到的特征向量矩阵和特征值矩阵从小到大排列,根据以下公式划分前M个特征为慢特征,剩余的Me个特征为快特征。M=m‑Me    (20)其中,rji为矩阵R=W‑1中第(j,i)个元素,q为分位数,可取0.1;card{·}表示集合{·}中元素个数。通过上述准则,可将提取得到的特征s分为较慢特征sd和较快特征se,即s=[sd se]T,对应地,特征值矩阵也可分为两部分Ωd和Ωe。(5.1.6)计算动态监测指标:从输入数据的第一个采样点开始,在每个采样时刻k可得到一组动态监测指标(Sd2,Se2),计算公式如下:其中,表示sd的一阶差分;(5.1.7)计算动态监测指标的控制限:利用核密度估计的方法,先估计出动态监测指标Sd2和Se2的概率密度函数pd(x),pe(x),对于给定显著性水平α,Sd2和Se2的控制限计算公式如下:(6)在采样时刻k,采集数据,按照步骤(5),利用SFA算法提取变量空间的快慢特征并计算动态监测指标,根据监测结果判断该时刻是否为控制决策时刻,若是,则进行自愈,若否,则不进行干预。当k=K时,表明该批次的控制已经结束,进行下一批次的控制。所述的监测方法如下:(6.1.1)获取在线测试数据及数据预处理:在采样时刻k采集前k时刻过程变量利用步骤(5.1.2)中计算得到的均值和方差sj对测试数据按公式(10)进行标准化处理,得到测试数据(6.1.2)计算并划分快慢特征:根据步骤(5.1.4)中得到的转换矩阵W,对进行投影得到再根据步骤(5.1.5)中的划分准则,提取较慢特征和较快特征(6.1.3)计算在线动态监测指标:根据建立的SFA模型以及步骤(5.1.6)中的计算方法,计算在线动态监测统计指标(6.1.4)根据动态监测指标超限与否确定是否为控制决策时刻,如果动态指标超出控制限说明控制器仍在响应,系统还未稳定,则当前时刻k不是控制决策时刻;如果动态指标回到控制限内,说明控制器已响应完成,系统进入稳定状态,则在当前时刻k为控制决策时刻,需要进行自愈。所述的自愈方法如下:(6.2.1)在控制决策时刻k,将当前时刻过程变量x(k)和u(k)输入到步骤(4)中构建的值函数评价网络输出目标函数J(k),将过程变量x(k)输入到步骤(4)中构建的设定值动作网络,输出获得输出值u(k+1)。(6.2.2)在新的设定值u(k+1)下,用步骤(2)中相同的预测方法得到新的过程变量值x(k+1),质量预测值(6.2.3)将x(k+1)和u(k+1)作为值函数评价网络的输入值,利用三层前馈神经网络输出值函数预测值J(k+1),并根据公式(1)得到奖励信号R(k)(6.2.4)根据公式(4)计算评价网络值函数评价网络的训练误差Ec(k),如果Ec(k)超出预先定义的训练阈值,则根据公式(5)(6)来训练值函数评价网络直到达到最大循环次数或者满足预先定义的训练误差。(6.2.5)当值函数评价网络训练完成后,根据公式(7)来计算设定值动作网络的训练误差Ea(k);如果Ea(k)超出预先定义的范围,根据公式(8)(9)训练设定值动作网络直到达到最大循环次数或者满足预先定义的训练误差。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811110386.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top