[发明专利]一种复杂生产过程闭环调度优化方法有效
申请号: | 201911343154.X | 申请日: | 2019-12-23 |
公开(公告)号: | CN110989538B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 曹政才;林诚然;胡标 | 申请(专利权)人: | 北京化工大学 |
主分类号: | G05B19/418 | 分类号: | G05B19/418 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100029 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复杂 生产过程 闭环 调度 优化 方法 | ||
1.一种复杂生产过程闭环调度方法,其特征在于:该方法的实现过程如下,
步骤1,设计复杂生产过程调度方案编解码方案;
对于生产线上的若干工件和m台加工设备,采用有向无环图来描述工序间复杂的先后约束;有向无环图的节点表示工件的各工序;有向线条表示工序间的先后约束关系,前置工序指向后序工序,线条上的数字则表示各工序间的整定时间,设如图1中的工件1的工序1与工件1的工序2不在同一设备上进行加工,则工件1的工序2最早可以在工件1的工序1完工4分钟后开始加工;对于需要合作加工的两个或多个工序,则采用有向无环图中的同一个节点来描述;采用二段式编码,设有向线条的有向无环图中总共有N个节点,则编码长度为2N;前半段编码长度为N,表示机器分配方案,各编码的值为1到m的随机可重复整数,其中m为设备总数,表示该工序被分配的机器号;后半段编码长度为N,编码值是1到N的随机不重复整数,表示工序排序方案,数字越小表示该工序优先级越高;
步骤2,基于SARSA(λ)算法离线训练共生进化算法参数模型;
步骤2.1,构建描述共生进化算法种群迭代情况的状态;采用4维向量s=[Dt/D0 Et/E0Rt t/T]表示,式中,t为当前种群迭代次数,T为预设最大迭代次数,D0和E0分别为初始种群的多样性和集中性因子;Dt、Et和Rt分别为第t次迭代时种群的多样性、集中性和进化率因子,按照如下方式计算:
式中,Dt描述第t次迭代中候选的生产调度方案的离散程度,和分别为第t次迭代中第p和h个个体,N是种群规模,和分别为个体和的适应度函数值;
式中,Et描述第t次迭代中候选的生产调度方案的集中程度,是第t次迭代中的最佳个体,|| ||为求二范数;
式中,Rt描述第t代迭代中候选的生产调度方案的改进程度;此外,为了能够应用SARSA(λ)算法,需要对状态进行离散化;考虑到Dt/D0、Et/E0和Rt处于区间[0,+∞)内,t/T处于区间[0,1]内,将其分别划分为ND、NE、NR和NT个子区间,这样,整个状态被划分为ND×NE×NR×NT个子区间;
步骤2.2,设计适用于参数动态自适应整定的动作集合A=[a1,a2,···,au,···,aU];式中,U为动作总个数,u为动作索引号,a1,a2和au分别为第1,2和u个动作;因此,对需控制的共生进化算法参数,即步长控制因子H进行如下方式的线性离散化;
式中,Hmax和Hmin分别为参数H的上下限;
步骤2.3,定义以平衡算法全局和局部搜索为目的的回报函数r(s,a);为此,算法种群需保持一个期望的有益变异率,即子代种群比父代种群中适应度函数值更优的个体所占的比例;为保证算法搜索能力,设定有益变异率为1/5,定义回报函数如下:
式中,s为状态,a为采取的动作,为个体xh在执行动作a后的个体,f(*)为适应度函数,sign(*)为符号函数,如果v>0,sign(v)=1;否则,sign(v)=0;
步骤2.4,根据步骤1中定义的状态、动作和回报函数,基于SARSA(λ)算法离线训练参数模型,即Q值矩阵;对于每一次探索,创建一个与Q值矩阵相同维度的空矩阵E,按照ε-贪心算法在动作集合中选取一个动作来执行,即按照均匀分布产生一个在区间(0,1)内的随机数,如果该值大于ε,则选取当前Q值矩阵中的最优动作,否则,在动作集合中随机选取一个动作并更新矩阵E:
E(s,a)←E(s,a)+1 (6)
在执行该动作后,根据(5)计算出相应的回报函数值,并按照下式更新Q值矩阵和矩阵E:
Q(s,a)←Q(s,a)+βδE(s,a)
E(s,a)←γλE(s,a) (7)
式中,β为学习速率,γ和λ为折扣因子,δ按照如下方式计算:
δ=r(s,a)+γQ(s',a')-Q(s,a) (8)
其中s'为状态s执行动作a后的状态,a'为按照ε-贪心算法选取的动作;如此迭代,直到达到预设的最大迭代次数则结束本次探索;重复若干次探索过程,即可得到各个状态下最优的参数整定Q值矩阵;
步骤3,共生演化计算操作;该算法每代需执行以下三个阶段操作:互惠、共栖和寄生;
步骤4,根据反馈信息在线更新参数整定模型;为保持离线训练的参数整定模型的有效性,需对其进行在线更新;
步骤3.1,互惠阶段;记为第t代种群中适应度函数值最小的个体,即最佳个体,首先按照下式得到中间个体
式中,和分别为随机选取的第t代种群中第i个与第j个个体,为两个体之间的交互向量,H为步长控制因子,C~U(1,2)是收益系数,为在区间(1,2)内的服从均匀分布的随机数;
步骤3.2,共栖阶段;根据中间个体生成子代个体
式中,V~U(0,1)是接收率因子,为在区间(1,2)内的服从均匀分布的随机数;
步骤3.3,寄生阶段;比较个体与的适应度函数值与若则用子代个体替换种群中父代个体
2.根据权利要求1所述的一种复杂生产过程闭环调度方法,其特征在于:步骤4.1按照下式的方式获取回报函数值:
步骤4.2按照下式的方式更新Q值矩阵
Q(s,a)←αQ(s,a)+(1-α)[r+γmax Q(s',a')-Q(s,a)] (12)
式中,a为实际迭代采用的动作,α为较大的学习速率,s'为当前种群的状态,max Q(s',a')为当前种群状态对应的最大Q值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京化工大学,未经北京化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911343154.X/1.html,转载请声明来源钻瓜专利网。