[发明专利]一种考虑前视距离的相容工件族的优化控制方法有效
申请号: | 201710404186.0 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107024867B | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 谭琦;肖奕霖;胡知强;唐昊 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种考虑前视距离的相容工件族的优化控制方法,包括:1通过强化学习算法得到最优Q值表;2在第k+g个决策时刻,根据观察到的系统的联合状态,查找最优Q值表,得到相应的前视距离和选择加工工件族动作;3判断该决策时刻内是否有工件,若有工件,则等待相应工件到达并存入对应的缓冲库中,否则,根据选择加工工件族动作选择相应的工件族中的工件送入批处理机中进行加工,并等待加工完成;然后令k+g+1赋值给k+g,并返回步骤3。本发明能在对相容工件族优化控制时考虑未来工件到达信息,从而能保证平衡生产,提高生产效率并降低工件的流失率。 | ||
搜索关键词: | 一种 考虑 视距 相容 工件 优化 控制 方法 | ||
【主权项】:
1.一种考虑前视距离的相容工件族的优化控制方法,其特征是,所述优化控制方法是应用于由传送带上传送的M种工件、自动捡取装置、M个缓冲库、容量为K的批处理机和红外线感知器所构成的单机生产系统中;所述M种工件分别属于M个不同的工件族,并对所述的M个工件族按加工率降序排序;任意第m个缓冲库的容量记为Nm,并用于存储属于第m个工件族的工件;假设所述第m个缓冲库中存储的工件数为nm,nm∈[0,Nm];由M个缓冲库中存储的工件个数构成所述单机生产系统的联合状态s=(n1,n2,…,nm,…,nM);M≥2;所述红外线感知器设置在传送带的末端,以所述红外线感知器所在的位置为起点,并以朝向传送带的一段传送距离作为前视距离![]()
lmax表示最大前视距离;定义选择加工工件族动作为![]()
pm表示所述批处理机加工由前m个工件族所构成的批;由所述前视距离
和选择加工工件族动作
构成的联合动作
且vS∈D=D1×D2;D表示所述单机生产系统的动作空间;定义决策时刻为批处理机为空闲状态且有工件到达缓冲库,或批处理机完成加工的时刻;所述优化控制方法是按如下步骤进行:步骤1、定义变量k,并初始化k=1;定义初始决策时刻为第k‑1个决策时刻;定义Q值表中的元素为状态‑动作对值是以系统的状态为Q值表的行,以系统的动作为Q值表的列而形成的,即
Q值表中,s1表示的是状态空间中第一个状态(0,0,…,0,…,0),sA为状态空间中最后一个状态(N1,N2,…,Nm,…,NM),v1表示的是动作空间中第一个动作(0,p1),vB为动作空间中最后一个动作(∞,pm);初始化初始决策时刻的Q值表,使得Q值表中除状态(0,0,…,0,…,0)行,动作
列,以及状态
动作
列所对应的Q值表元素为“INF”外,Q值表中其他的元素均为“0”;其中,若Q(sa,vb)为“INF”表示是在状态sa下,动作vb不可取;步骤2、利用强化学习算法得到最优Q值表;步骤2.1、定义计数器为g,并初始化g=1;定义最大学习次数为G;定义贪心概率ε;步骤2.2、在第k‑1个决策时刻,系统的联合状态为
根据ε‑贪心算法选择动作:以贪心概率ε选择当前Q值表中状态sk‑1对应的最优动作,以1‑ε的概率随机选择动作空间D中的其他动作;产生一个随机数,若所述随机数属于(0,ε),则执行所述最优动作,若所述随机数属于(ε,1),则执行所述其他动作,从而得到第k‑1个决策时刻转移到第k个决策时刻转移样本轨道
其中,Δk为第k‑1个决策时刻与第k个决策时刻的时间间隔,
为第k‑1个决策时刻转移到第k个决策时刻的过程中第w个工件到达相应的缓存库后的时刻与第k个决策时刻之间的存储时间,Lk表示第k‑1个决策时刻转移到第k个决策时刻过程中传送带上流失工件数的流失代价;步骤2.3、利用式(1)计算第k‑1个决策时刻转移到第k个决策时刻过程中的即时代价Rk‑1,k:
式(1)中,
为第k‑1个决策时刻转移到第k个决策时刻过程中,缓冲库内所有工件的存储代价;
为第k‑1个决策时刻转移到第k个决策时刻过程中,到达缓冲库工件的累计存储代价;β表示所述流失代价Lk的权重;步骤2.4、利用式(2)对第k‑1个决策时刻的状态‑动作对值
进行更新,并令g+1赋值给g:
式(2)中,α为学习步长;dk‑1表示差分公式,并有:
式(3)中,v表示所述动作空间D中的任一动作;步骤2.5、判断g>G是否成立,若成立,表示学习结束,并得到最优Q值表;否则,令k+1赋值给k后,返回步骤2.2;步骤3、在第k+g个决策时刻,系统的联合状态
若所有缓冲库为空,则等待下个工件到达并存入相应缓冲库中,否则,根据所述状态sk+g查找所述最优Q值表,从而选择相应的前视距离
和选择加工工件族动作
步骤4、判断第k+g个决策时刻的前视距离
内是否有工件,若有工件,则等待相应工件到达并存入对应的缓冲库中,否则,根据第k+g个决策时刻的选择加工工件族动作
选择相应的批送入批处理机中进行加工,并等待加工完成;步骤5、令k+g+1赋值给k+g,并返回步骤3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710404186.0/,转载请声明来源钻瓜专利网。