[发明专利]一种基于多层深度强化学习的柔性作业车间调度方法在审
申请号: | 202210603831.2 | 申请日: | 2022-05-30 |
公开(公告)号: | CN114912826A | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 李小霞;曾正祺 | 申请(专利权)人: | 华中农业大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/04;G06N3/08 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 刘琰 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 深度 强化 学习 柔性 作业 车间 调度 方法 | ||
本发明公开了一种基于多层深度强化学习的柔性作业车间调度方法,包括:P1深度强化学习模型部分:深度学习采用图神经网络,析取图作为其输入并得到其特征,实现有效地得到问题的特征表示。强化学习基于马尔可夫决策模型,柔性车间调度问题经过模型的反复决策过程得到其决策方案,通过最大化奖励值的方式让其目标最优。P2训练算法部分:采用actor_critic算法来进行模型的训练,将样本收集的任务分配给多个子线程进行,每个子线程独立的进行决策和生成样本,并且每个子线程同时决策多个问题生成多条决策轨迹,实现快速的生成无关联的高质量样本优化模型并快速地得到最终模型,本发明训练后的模型支持柔性车间调度问题的快速求解以及在不同规模问题上的泛化。
技术领域
本发明涉及组合优化领域,尤其涉及一种基于多层深度强化学习的柔性作业车间调度方法。
背景技术
柔性作业车间调度问题是车间调度问题的重要延伸且被认为是NP难题,在柔性车间调度问题中,同一个工件可能有多条加工路径,同一个工序的加工机器可能有多台。这极大提升了问题的复杂度。如何在最短的时间内为柔性作业车间调度问题找出最优解,在组合优化问题中具有重要意义。目前,求解柔性作业车间调度问题的主要方法是调度规则和元启发式算法。通过基于柔性作业车间调度问题的调度规则,给工序和机器确定优先级,可以快速获得解决方案。
然而,使用调度规则得到的调度结果并不理想,并且调度规则并不适用于多变的加工环境。与调度规则相比,元启发式算法通过很多轮迭代找到最优解,元启发式算法可以获得很好的结果,但其计算时间很长,并且元启发式算法不具备泛化性能,当问题变化时需要重新进行初始化和迭代。机器学习作为一种新的方法被应用到了许多领域并取得了很好的成果,因此,将机器学习方法应用于柔性车间调度问题是一个新的研究方向。深度强化学习是机器学习的一个研究分支,深度强化学习的模型可以通过大量的训练后直接用于问题的决策,而柔性车间调度问题也可以表示为决策问题。深度强化学习模型的设计是该方法的重要部分。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于多层深度强化学习的柔性作业车间调度方法。采用析取图表示柔性车间调度问题,使用图神经网络提取特征,设计了和问题对应的状态,动作和奖励来建立马尔可夫模型,设计分层决策模型将柔性车间调度问题拆分为工序排序和机器选择两个子问题来进行求解,异步优势actor_critic算法能够快速有效地训练模型。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于多层深度强化学习的柔性作业车间调度方法,对于柔性车间调度问题,建立深度强化学习模型,对其进行训练,并通过训练后的深度强化学习模型对柔性车间调度问题进行求解,输出最优调度方案;该方法包括以下两个部分:
P1深度强化学习模型部分:深度强化学习模型用于决策柔性车间调度问题,将柔性车间调度问题表示为析取图,求解过程为析取弧的定向过程;深度学习采用图神经网络,析取图作为其输入并得到其特征,实现有效地得到问题的特征表示;强化学习基于马尔可夫决策模型,设计与问题对应的状态、动作和奖励,分层的决策模型根据状态特征做出相应的动作;柔性车间调度问题经过模型的反复决策过程得到其决策方案,通过最大化奖励值的方式让其目标最优;
P2训练算法部分:采用多线程、多轨迹的异步优势actor_critic算法训练深度强化学习模型,将样本收集的任务分配给多个子线程进行,每个子线程独立的进行决策和生成样本,并且每个子线程同时决策多个问题生成多条决策轨迹,实现快速的生成无关联的高质量样本优化模型并快速地得到最终模型,训练后的模型支持柔性车间调度问题的快速求解以及在不同规模问题上的泛化;并通过训练后的深度强化学习模型输出柔性车间的最优调度方案,将最优调度方案交由柔性车间执行。
进一步地,本发明的所述P1深度强化学习模型部分中得到析取图特征的具体方法为:
步骤1.1、根据柔性车间调度问题,得到其析取图表示Graph;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中农业大学,未经华中农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210603831.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理