[发明专利]一种用于传送带给料加工站系统的多目标优化控制方法有效

申请号：	201711167798.9	申请日：	2017-11-21
公开（公告）号：	CN107977738B	公开（公告）日：	2021-04-06
发明（设计）人：	谭琦;胡知强;唐昊;肖奕霖;戴飞;周雷;杨子豪	申请（专利权）人：	合肥工业大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/06;G06Q50/04
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于传送带给加工系统多目标优化控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于传送带给料加工站系统的多目标优化控制方法，是应用于由工件(1)、匀速运动的传送带(2)、容量为M的缓冲库(3)、加工站(4)、成品库(5)、红外线感知器(6)、机械臂(7)所组成的传送带给料加工站系统当中；

所述传送带给料加工站系统中，定义缓冲库(3)中的剩余量为m，m∈[0,M]，M为所述缓冲库(3)的最大容量；以剩余量m作为系统的状态s；

所述红外线感知器(6)设置在捡取点(8)，以所述红外线感知器(6)所在的位置为起点的一段传送距离作为前视距离v_s，v_s∈[0,l_max]∪∞，l_max表示最大前视距离；

所述工件(1)沿所述传送带(2)随机到达，所述系统根据缓冲库(3)的剩余量选择一个前视距离v_s，若前视距离v_s内有工件，则所述机械臂(7)等待工件(1)到达捡取点(8)并卸载到缓冲库(3)中，若前视距离v_s内无工件，则所述机械臂(7)从缓冲库(3)中取出工件放入加工站(4)中进行加工，加工完成后取出并放入成品库(5)中；

将所述前视距离v_s进行离散化定义后，得到行动a_s∈D＝{0,1,…,N}，其中，行动a_s＝0表示所对应的前视距离v_s为零，a_s＝N-1表示所对应的前视距离v_s为l_max，a_s＝N表示所对应的前视距离v_s为无穷大；D表示行动集合；N表示前视距离离散化后的行动数量；

定义系统的决策时刻为工件卸载完成的时刻或工件完成加工的时刻；其特征是，所述多目标优化控制方法如下：

步骤1、定义变量k＝1，设当前状态为s_k；定义最大学习步数为K；

定义值表，并初始化所有状态-行动对下的值向量均为[00]；

步骤2、在第k个决策时刻，观察系统的当前状态s_k，根据贪婪策略控制系统进行加工；

步骤2.1、计算k个决策时刻的状态s_k的非支配行动集；

步骤2.2、产生一个随机数，若所述随机数属于(0,ε)，则从非支配行动集中随机选择一个行动，若所述随机数属于(ε,1)，则从行动集合D中随机选择一个行动；ε表示非支配行动的选择概率；

假设所选择的行动为

步骤2.3、若行动所对应的前视距离内有工件，则系统选择等待，直到工件到达捡取点(8)并被卸载到缓冲库(3)中，系统进入第k+1个决策时刻并观察下一状态s_k+1，以相邻两个决策时刻的转移过程为卸载过程；

若行动所对应的前视距离内无工件，则系统选择加工，从缓冲库中(3)中取出一个工件进行加工，加工完成后系统进入第k+1个决策时刻并观察下一状态s_k+1，以相邻两个决策时刻的转移过程为加工过程；

步骤3、利用式(1)计算系统从第k个状态s_k到第k+1个状态s_k+1转移过程的累积奖励

式(1)中，Δ_k为转移过程的时间间隔，为从第k个决策时刻到第k+1个决策时刻转移过程的实时代价，并有：

若转移过程为卸载过程，则实时代价由式(2)获得：

若转移过程为加工过程，则实时代价由式(3)获得：

式(1)中，η_k为第k个决策时刻的性能代价值，并由式(4)获得：

式(4)中，S_f和S_Δ分别为系统的累计代价和累计逗留时间，并由式(5)和式(6)得到：

S_Δ:＝S_Δ+β_k[Δ_k-S_Δ] (6)

式(5)和式(6)中，:＝为赋值符号，β_k为更新累计代价和累计逗留时间过程中的第k个决策时刻的折扣因子；

步骤4、利用式(7)更新值的向量集合：

式(7)中，γ_k为第k个决策时刻的学习步长，表示下一状态s_k+1所有行动a′下的值集合，ND表示删除向量集合中所有被支配的向量，只保留非支配向量；

式(7)中，为向量而为向量集合，用R表示用表示则向量与向量集合的加法通过式(8)计算：

式(8)中，v为向量集合中任一向量；

式(7)中，为向量集合，也为向量集合，用表示用表示则向量集合与向量集合的加法通过式(9)计算：

式(9)中，g、u分别为向量集合和向量集合中任一向量；

步骤5、将k+1赋值给k，若k小于K，则返回步骤2，否则转步骤6；

步骤6、设置权重w＝[w₁ w₂]^T，按式(10)对所有状态-行动对提取Q_w(s,a_s)值；

式(10)中，q表示向量集合中的任一向量；

步骤7、观察当前状态s，按式(11)选择最优行动

步骤8、若最优行动所对应的前视距离v_s内有工件，则系统选择等待，直到工件到达捡取点(8)并被卸载到缓冲库(3)中，系统进入下一决策时刻并观察下一状态s'；

若最优行动所对应的前视距离v_s内无工件，则系统选择加工，从缓冲库(3)中取出一个工件进行加工，加工完成系统进入下一决策时刻并观察下一状态s'；

步骤9、将s'赋值给s；

步骤10、判断权重w是否改变，若改变，则返回步骤6，否则返回步骤7，从而实现相同或不同权重w下的最优控制。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711167798.9/1.html，转载请声明来源钻瓜专利网。

上一篇：基于mxnet框架深度神经网络的配变负荷预测方法
下一篇：物流配送路径的优化方法、装置及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于传送带给料加工站系统的多目标优化控制方法有效

专利文献下载