[发明专利]一种考虑前视距离的相容工件族的优化控制方法有效

申请号：	201710404186.0	申请日：	2017-06-01
公开（公告）号：	CN107024867B	公开（公告）日：	2019-10-25
发明（设计）人：	谭琦;肖奕霖;胡知强;唐昊	申请（专利权）人：	合肥工业大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种考虑前视距离的相容工件族的优化控制方法，包括：1通过强化学习算法得到最优Q值表；2在第k+g个决策时刻，根据观察到的系统的联合状态，查找最优Q值表，得到相应的前视距离和选择加工工件族动作；3判断该决策时刻内是否有工件，若有工件，则等待相应工件到达并存入对应的缓冲库中，否则，根据选择加工工件族动作选择相应的工件族中的工件送入批处理机中进行加工，并等待加工完成；然后令k+g+1赋值给k+g，并返回步骤3。本发明能在对相容工件族优化控制时考虑未来工件到达信息，从而能保证平衡生产，提高生产效率并降低工件的流失率。
搜索关键词：	一种考虑视距相容工件优化控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种考虑前视距离的相容工件族的优化控制方法，其特征是，所述优化控制方法是应用于由传送带上传送的M种工件、自动捡取装置、M个缓冲库、容量为K的批处理机和红外线感知器所构成的单机生产系统中；所述M种工件分别属于M个不同的工件族，并对所述的M个工件族按加工率降序排序；任意第m个缓冲库的容量记为N_m，并用于存储属于第m个工件族的工件；假设所述第m个缓冲库中存储的工件数为n_m，n_m∈[0,N_m]；由M个缓冲库中存储的工件个数构成所述单机生产系统的联合状态s＝(n₁,n₂,…,n_m,…,n_M)；M≥2；所述红外线感知器设置在传送带的末端，以所述红外线感知器所在的位置为起点，并以朝向传送带的一段传送距离作为前视距离l_max表示最大前视距离；定义选择加工工件族动作为p_m表示所述批处理机加工由前m个工件族所构成的批；由所述前视距离和选择加工工件族动作构成的联合动作且v_S∈D＝D¹×D²；D表示所述单机生产系统的动作空间；定义决策时刻为批处理机为空闲状态且有工件到达缓冲库，或批处理机完成加工的时刻；所述优化控制方法是按如下步骤进行：步骤1、定义变量k，并初始化k＝1；定义初始决策时刻为第k‑1个决策时刻；定义Q值表中的元素为状态‑动作对值是以系统的状态为Q值表的行，以系统的动作为Q值表的列而形成的，即Q值表中，s₁表示的是状态空间中第一个状态(0,0,…,0,…,0)，s_A为状态空间中最后一个状态(N₁,N₂,…,N_m,…,N_M)，v₁表示的是动作空间中第一个动作(0,p₁)，v_B为动作空间中最后一个动作(∞,p_m)；初始化初始决策时刻的Q值表，使得Q值表中除状态(0,0,…,0,…,0)行，动作列，以及状态动作列所对应的Q值表元素为“INF”外，Q值表中其他的元素均为“0”；其中，若Q(s_a,v_b)为“INF”表示是在状态s_a下，动作v_b不可取；步骤2、利用强化学习算法得到最优Q值表；步骤2.1、定义计数器为g，并初始化g＝1；定义最大学习次数为G；定义贪心概率ε；步骤2.2、在第k‑1个决策时刻，系统的联合状态为根据ε‑贪心算法选择动作：以贪心概率ε选择当前Q值表中状态s_k‑1对应的最优动作，以1‑ε的概率随机选择动作空间D中的其他动作；产生一个随机数，若所述随机数属于(0,ε)，则执行所述最优动作，若所述随机数属于(ε,1)，则执行所述其他动作，从而得到第k‑1个决策时刻转移到第k个决策时刻转移样本轨道其中，Δ_k为第k‑1个决策时刻与第k个决策时刻的时间间隔，为第k‑1个决策时刻转移到第k个决策时刻的过程中第w个工件到达相应的缓存库后的时刻与第k个决策时刻之间的存储时间，L^k表示第k‑1个决策时刻转移到第k个决策时刻过程中传送带上流失工件数的流失代价；步骤2.3、利用式(1)计算第k‑1个决策时刻转移到第k个决策时刻过程中的即时代价R_k‑1,k：式(1)中，为第k‑1个决策时刻转移到第k个决策时刻过程中，缓冲库内所有工件的存储代价；为第k‑1个决策时刻转移到第k个决策时刻过程中，到达缓冲库工件的累计存储代价；β表示所述流失代价L^k的权重；步骤2.4、利用式(2)对第k‑1个决策时刻的状态‑动作对值进行更新，并令g+1赋值给g：式(2)中，α为学习步长；d_k‑1表示差分公式，并有：式(3)中，v表示所述动作空间D中的任一动作；步骤2.5、判断g>G是否成立，若成立，表示学习结束，并得到最优Q值表；否则，令k+1赋值给k后，返回步骤2.2；步骤3、在第k+g个决策时刻，系统的联合状态若所有缓冲库为空，则等待下个工件到达并存入相应缓冲库中，否则，根据所述状态s_k+g查找所述最优Q值表，从而选择相应的前视距离和选择加工工件族动作步骤4、判断第k+g个决策时刻的前视距离内是否有工件，若有工件，则等待相应工件到达并存入对应的缓冲库中，否则，根据第k+g个决策时刻的选择加工工件族动作选择相应的批送入批处理机中进行加工，并等待加工完成；步骤5、令k+g+1赋值给k+g，并返回步骤3。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710404186.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于车速分区的多模型横向模糊控制方法
下一篇：基于红外对射门禁联动控制系统

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种考虑前视距离的相容工件族的优化控制方法有效

专利文献下载