[发明专利]一种基于多层深度强化学习的柔性作业车间调度方法在审
申请号: | 202210603831.2 | 申请日: | 2022-05-30 |
公开(公告)号: | CN114912826A | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 李小霞;曾正祺 | 申请(专利权)人: | 华中农业大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/04;G06N3/08 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 刘琰 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 深度 强化 学习 柔性 作业 车间 调度 方法 | ||
1.一种基于多层深度强化学习的柔性作业车间调度方法,其特征在于,对于柔性车间调度问题,建立深度强化学习模型,对其进行训练,并通过训练后的深度强化学习模型对柔性车间调度问题进行求解,输出最优调度方案;该方法包括以下两个部分:
P1深度强化学习模型部分:深度强化学习模型用于决策柔性车间调度问题,将柔性车间调度问题表示为析取图,求解过程为析取弧的定向过程;深度学习采用图神经网络,析取图作为其输入并得到其特征,实现有效地得到问题的特征表示;强化学习基于马尔可夫决策模型,设计与问题对应的状态、动作和奖励,分层的决策模型根据状态特征做出相应的动作;柔性车间调度问题经过模型的反复决策过程得到其决策方案,通过最大化奖励值的方式让其目标最优;
P2训练算法部分:采用多线程、多轨迹的异步优势actor_critic算法训练深度强化学习模型,将样本收集的任务分配给多个子线程进行,每个子线程独立的进行决策和生成样本,并且每个子线程同时决策多个问题生成多条决策轨迹,实现快速的生成无关联的高质量样本优化模型并快速地得到最终模型,训练后的模型支持柔性车间调度问题的快速求解以及在不同规模问题上的泛化;并通过训练后的深度强化学习模型输出柔性车间的最优调度方案,将最优调度方案交由柔性车间执行。
2.根据权利要求1所述的基于多层深度强化学习的柔性作业车间调度方法,其特征在于,所述P1深度强化学习模型部分中得到析取图特征的具体方法为:
步骤1.1、根据柔性车间调度问题,得到其析取图表示Graph;
步骤1.2、根据析取图中的析取弧确定节点信息;
步骤1.3、将析取图作为图神经网络的输入得到其特征Feature。
3.根据权利要求2所述的基于多层深度强化学习的柔性作业车间调度方法,其特征在于,所述步骤1.1中析取图定义如下:
柔性车间调度问题的析取图描述为:给定图G={O,C,D},其中O为所有加工工序节点o和两个虚拟工序节点S和E的集合,两个虚拟工序节点分别表示调度的开始和结束;C为连接弧集合,C={v,w|v,w∈V},v和w表示的两个工序属于同一个工件;对于属于C的v,w表示节点v到节点w有一条连接弧,为单向弧,为保证同一工件上的各工序加工顺序的先后约束,有stv<stw,stv为节点v所表示工序的开始加工时间;D为析取弧集合,D={v,w|v,w∈V},每一条为双向弧的析取弧表示连接的节点v和节点w的工序可以在同一台机器上加工;最终目标为确定所有析取弧的方向,同时让最大完工时间最短;柔性车间调度问题的每个工件的工序数目可能不同,在转换析取图时,若工件的工序数目少于最大工序数,则在工件末尾添加“0”工序节点确保图结构的统一性,“0”工序运行时间不计,可以在所有机器上加工。
4.根据权利要求2所述的基于多层深度强化学习的柔性作业车间调度方法,其特征在于,所述步骤1.2中节点信息的计算方法具体为:
步骤1.2.1、对每个工序,随机选择其在一台可执行机器上的执行时间作为其预估执行时间;
步骤1.2.2、不考虑未定向的析取弧约束,每个工序按照其连接弧约束关系和已定向的析取弧关系依次加工,计算每个工序的完工时间作为其节点信息。
5.根据权利要求2所述的基于多层深度强化学习的柔性作业车间调度方法,其特征在于,所述步骤1.3中图神经网络特征计算的具体方法为:
步骤1.3.1、由节点信息和弧关系输入第k层图神经网络计算节点表征,k=1;节点表征计算公式如下:
采用图同构网络结构,执行K次更新迭代,以计算每个节点v的p维嵌入,v∈V,第k层的更新表示为:
其中,是节点v在第k层的特征表示;MLP是一个多层线性模型,N(v)是连接到节点v的所有节点的集合;
步骤1.3.2,节点表征图池化得到图的表征,采用平均池化,k=k+1;
步骤1.3.3,循环执行K次步骤1.3.1和步骤1.3.2;
步骤1.3.4,最终的图的表征通过输出层线性变换得到输出特征Feature。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中农业大学,未经华中农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210603831.2/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理