[发明专利]一种用于传送带给料加工站系统的多目标优化控制方法有效
申请号: | 201711167798.9 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107977738B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 谭琦;胡知强;唐昊;肖奕霖;戴飞;周雷;杨子豪 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06;G06Q50/04 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 传送 带给 加工 系统 多目标 优化 控制 方法 | ||
1.一种用于传送带给料加工站系统的多目标优化控制方法,是应用于由工件(1)、匀速运动的传送带(2)、容量为M的缓冲库(3)、加工站(4)、成品库(5)、红外线感知器(6)、机械臂(7)所组成的传送带给料加工站系统当中;
所述传送带给料加工站系统中,定义缓冲库(3)中的剩余量为m,m∈[0,M],M为所述缓冲库(3)的最大容量;以剩余量m作为系统的状态s;
所述红外线感知器(6)设置在捡取点(8),以所述红外线感知器(6)所在的位置为起点的一段传送距离作为前视距离vs,vs∈[0,lmax]∪∞,lmax表示最大前视距离;
所述工件(1)沿所述传送带(2)随机到达,所述系统根据缓冲库(3)的剩余量选择一个前视距离vs,若前视距离vs内有工件,则所述机械臂(7)等待工件(1)到达捡取点(8)并卸载到缓冲库(3)中,若前视距离vs内无工件,则所述机械臂(7)从缓冲库(3)中取出工件放入加工站(4)中进行加工,加工完成后取出并放入成品库(5)中;
将所述前视距离vs进行离散化定义后,得到行动as∈D={0,1,…,N},其中,行动as=0表示所对应的前视距离vs为零,as=N-1表示所对应的前视距离vs为lmax,as=N表示所对应的前视距离vs为无穷大;D表示行动集合;N表示前视距离离散化后的行动数量;
定义系统的决策时刻为工件卸载完成的时刻或工件完成加工的时刻;其特征是,所述多目标优化控制方法如下:
步骤1、定义变量k=1,设当前状态为sk;定义最大学习步数为K;
定义值表,并初始化所有状态-行动对下的值向量均为[00];
步骤2、在第k个决策时刻,观察系统的当前状态sk,根据贪婪策略控制系统进行加工;
步骤2.1、计算k个决策时刻的状态sk的非支配行动集;
步骤2.2、产生一个随机数,若所述随机数属于(0,ε),则从非支配行动集中随机选择一个行动,若所述随机数属于(ε,1),则从行动集合D中随机选择一个行动;ε表示非支配行动的选择概率;
假设所选择的行动为
步骤2.3、若行动所对应的前视距离内有工件,则系统选择等待,直到工件到达捡取点(8)并被卸载到缓冲库(3)中,系统进入第k+1个决策时刻并观察下一状态sk+1,以相邻两个决策时刻的转移过程为卸载过程;
若行动所对应的前视距离内无工件,则系统选择加工,从缓冲库中(3)中取出一个工件进行加工,加工完成后系统进入第k+1个决策时刻并观察下一状态sk+1,以相邻两个决策时刻的转移过程为加工过程;
步骤3、利用式(1)计算系统从第k个状态sk到第k+1个状态sk+1转移过程的累积奖励
式(1)中,Δk为转移过程的时间间隔,为从第k个决策时刻到第k+1个决策时刻转移过程的实时代价,并有:
若转移过程为卸载过程,则实时代价由式(2)获得:
若转移过程为加工过程,则实时代价由式(3)获得:
式(1)中,ηk为第k个决策时刻的性能代价值,并由式(4)获得:
式(4)中,Sf和SΔ分别为系统的累计代价和累计逗留时间,并由式(5)和式(6)得到:
SΔ:=SΔ+βk[Δk-SΔ] (6)
式(5)和式(6)中,:=为赋值符号,βk为更新累计代价和累计逗留时间过程中的第k个决策时刻的折扣因子;
步骤4、利用式(7)更新值的向量集合:
式(7)中,γk为第k个决策时刻的学习步长,表示下一状态sk+1所有行动a′下的值集合,ND表示删除向量集合中所有被支配的向量,只保留非支配向量;
式(7)中,为向量而为向量集合,用R表示用表示则向量与向量集合的加法通过式(8)计算:
式(8)中,v为向量集合中任一向量;
式(7)中,为向量集合,也为向量集合,用表示用表示则向量集合与向量集合的加法通过式(9)计算:
式(9)中,g、u分别为向量集合和向量集合中任一向量;
步骤5、将k+1赋值给k,若k小于K,则返回步骤2,否则转步骤6;
步骤6、设置权重w=[w1 w2]T,按式(10)对所有状态-行动对提取Qw(s,as)值;
式(10)中,q表示向量集合中的任一向量;
步骤7、观察当前状态s,按式(11)选择最优行动
步骤8、若最优行动所对应的前视距离vs内有工件,则系统选择等待,直到工件到达捡取点(8)并被卸载到缓冲库(3)中,系统进入下一决策时刻并观察下一状态s';
若最优行动所对应的前视距离vs内无工件,则系统选择加工,从缓冲库(3)中取出一个工件进行加工,加工完成系统进入下一决策时刻并观察下一状态s';
步骤9、将s'赋值给s;
步骤10、判断权重w是否改变,若改变,则返回步骤6,否则返回步骤7,从而实现相同或不同权重w下的最优控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711167798.9/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理