[发明专利]一种基于强化学习与控制性能监测的智能自愈方法有效
申请号: | 201811110386.6 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109460890B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 赵春晖;王婕 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06N3/08;G06F17/16 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 黄欢娣;邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 控制 性能 监测 智能 自愈 方法 | ||
1.一种基于强化学习与控制性能监测的智能自愈方法,其特征在于,该方法包括以下步骤:
(1)获取待分析数据:设对一个生产制造过程选取J个过程变量,则在k时刻采样可以得到一个1×J的向量,称为过程向量x(k),一个批次过程结束,则可以得到一个K×J维的数据,其中K是一个批次中的采样次数,所述过程变量为运行过程中可被测量的状态参数;采集该批次的终端输出质量为y;
(2)利用历史批次的数据,对时刻k的过程向量x(k)和终端输出质量进行预测,终端输出质量的预测结果表示为
(3)定义奖励函数R(k)、目标函数J(k)及控制变量设定值u(k):
由于制造过程总是希望终端输出产品质量符合生产者期望,根据生产者期望设定奖励函数R(k),计算公式如下:
其中,y*是终端质量的期望值,是k时刻的质量预测值,Δ是容许质量误差值,构成了期望质量区间;R(k)越小,该批次产品的质量越符合期望;
目标函数J(k)表示为从k时刻到批次结束时,每个采样时刻上预测质量误差平方的总和,定义为:
其中,γ∈[0,1]是折扣因子;
对目标函数进行化简,可将其分为两个部分,第一部分Ri(k)衡量了控制作用在当前时刻导致的质量偏差,第二部分γJ(k+1)衡量了控制作用在后续时刻对质量的影响,公式化简如下:
控制变量为根据非优原因诊断或相关过程知识选择的待控制的变量,其设定值表示为u(k),过程初始设定值根据生产经验自行设定;
(4)根据强化学习中的Actor-Critic结构,建立自愈算法的主要部分,即构造设定值动作网络和值函数评价网络,该步骤由以下子步骤实现:
(4.1)构建并训练值函数评价网络,该步骤由以下子步骤实现:
(4.1.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程向量x(k)及待控制的变量设定值u(k),输出为目标函数J(k);
(4.1.2)在采样时刻k,根据神经网络中权值更新公式对评价网络权重系数Wc(k)进行更新:
Wc(k+1)=Wc(k)+ΔWc(k) (4)
其中,lc(k)为k时刻的学习率,Ec(k)为训练误差;
当训练误差小于训练阈值Tc,则表明目标函数已经能被准确预测和评价,训练停止,反之,表明评价网络需要继续训练;
(4.2)构建并训练设定值动作网络,该步骤由以下子步骤实现:
(4.2.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程变量x(k),输出为待控制的变量设定值u(k);
(4.2.2)在采样时刻k,根据神经网络中权值更新公式对动作网络权重系数Wa(k)进行更新:
Wa(k+1)=Wa(k)+ΔWa(k) (7)
其中,la(k)为k时刻的学习率,Ea(k)为训练误差:
当训练误差小于训练阈值Ta,则表明当前变量的设定值已经满足期望要求,训练停止,反之,表明评价网络需要继续训练;
(5)利用SFA算法提取变量空间的快慢特征并计算动态监测指标,其中,SFA监测采样周期需要小于控制器的响应时间,该步骤由以下子步骤实现:
(5.1)离线建立SFA模型,该步骤由以下子步骤实现:
(5.1.1)训练数据获取:采样获取制造过程在正常工况下的一个批次的维数为K×J的过程变量X0作为输入数据;
(5.1.2)训练数据标准化:对输入数据按列进行标准化,公式如下:
其中,为X0中第i行第j列的数值xi,j标准化后的数值,为第j列的均值,sj为第j列的方差,标准化后得到训练数据X;
(5.1.3)训练数据白化:对训练数据进行白化以去除训练数据X中的相关性,使得提取出的特征值携带不同的信息,具体操作是对xxTt进行奇异值分解,生成白化矩阵Q,得到白化后的输入向量z,公式如下:
xxTt=UΛUT (11)
z=Λ-1/2UTx=Qx (12)
Q=Λ-1/2UT (13)
其中, t表示对时间进行积分;
(5.1.4)计算转换矩阵,得到m个慢特征s:可以证明,对进行奇异值分解后,得到正交矩阵P,能使目标函数值最小,并且得到的一系列奇异值ωj即为函数值表示特征的缓慢度Δ(sj),正交矩阵P、转换矩阵W、特征值矩阵Ω及慢特征的计算公式如下:
W=PQ=PΛ-1/2UT (15)
Ω=diag(ω1,ω2,…ωm) (16)
s=Wx (17)
(5.1.5)划分快慢特征:将通过奇异值分解得到的特征向量矩阵和特征值矩阵从小到大排列,根据以下公式划分前M个特征为慢特征,剩余的Me个特征为快特征;
M=m-Me (20)
其中,rji为矩阵R=W-1中第(j,i)个元素,q为分位数,可取0.1;card{·}表示集合{·}中元素个数;
通过上述准则,可将提取得到的特征s分为较慢特征sd和较快特征se,即s=[sd se]T,对应地,特征值矩阵也可分为两部分Ωd和Ωe;
(5.1.6)计算动态监测指标:从输入数据的第一个采样点开始,在每个采样时刻k可得到一组动态监测指标(Sd2,Se2),计算公式如下:
其中,表示sd的一阶差分;
(5.1.7)计算动态监测指标的控制限:利用核密度估计的方法,先估计出动态监测指标Sd2和Se2的概率密度函数pd(x),pe(x),对于给定显著性水平α,Sd2和Se2的控制限Sd2UCL,Se2UCL计算公式如下:
(6)在采样时刻k,采集数据,按照步骤(5),利用SFA算法提取变量空间的快慢特征并计算动态监测指标,根据监测结果判断该时刻是否为控制决策时刻,若是,则进行自愈,若否,则不进行干预;当k=K时,表明该批次的控制已经结束,进行下一批次的控制;
所述的监测方法如下:
(6.1.1)获取在线测试数据及数据预处理:在采样时刻k采集前k时刻过程变量利用步骤(5.1.2)中计算得到的均值和方差sj对测试数据按公式(10)进行标准化处理,得到测试数据
(6.1.2)计算并划分快慢特征:根据步骤(5.1.4)中得到的转换矩阵W,对进行投影得到再根据步骤(5.1.5)中的划分准则,提取较慢特征和较快特征
(6.1.3)计算在线动态监测指标:根据建立的SFA模型以及步骤(5.1.6)中的计算方法,计算在线动态监测统计指标
(6.1.4)根据动态监测指标超限与否确定是否为控制决策时刻,如果动态指标超出控制限Sd2UCL,Se2UCL,说明控制器仍在响应,系统还未稳定,则当前时刻k不是控制决策时刻;如果动态指标回到控制限内,说明控制器已响应完成,系统进入稳定状态,则在当前时刻k为控制决策时刻,需要进行自愈;
所述的自愈方法如下:
(6.2.1)在控制决策时刻k,将当前时刻过程变量x(k)和u(k)输入到步骤(4)中构建的值函数评价网络输出目标函数J(k),将过程变量x(k)输入到步骤(4)中构建的设定值动作网络,输出获得输出值u(k+1);
(6.2.2)在新的设定值u(k+1)下,用步骤(2)中相同的预测方法得到新的过程变量值x(k+1),质量预测值
(6.2.3)将x(k+1)和u(k+1)作为值函数评价网络的输入值,利用三层前馈神经网络输出值函数预测值J(k+1),并根据公式(1)得到奖励信号R(k);
(6.2.4)根据公式(4)计算评价网络值函数评价网络的训练误差Ec(k),如果Ec(k)超出预先定义的训练阈值,则根据公式(5)(6)来训练值函数评价网络直到达到最大循环次数或者满足预先定义的训练误差;
(6.2.5)当值函数评价网络训练完成后,根据公式(7)来计算设定值动作网络的训练误差Ea(k);如果Ea(k)超出预先定义的范围,根据公式(8)(9)训练设定值动作网络直到达到最大循环次数或者满足预先定义的训练误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811110386.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理