[发明专利]基于深度强化学习的多目标柔性作业车间调度方法和装置在审

申请号：	202010983212.1	申请日：	2020-09-17
公开（公告）号：	CN112149987A	公开（公告）日：	2020-12-29
发明（设计）人：	张林宣;罗术	申请（专利权）人：	清华大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06N3/08;G06N3/04
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张大威
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习多目标柔性作业车间调度方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的多目标柔性作业车间调度方法和装置，涉及动态调度技术领域，其中，方法包括：读取当前重调度时刻的生产线状态特征向量输入训练后的目标智能体的目标策略网络得到调度目标；将生产线状态特征向量和调度目标输入训练后的工件智能体的工件策略网络得到工件指派规则，并输入训练后的机器智能体的机器策略网络得到机器分配规则；根据工件指派规则选取待加工工件，根据机器分配规则选取加工机器，通过加工机器对待加工工件的下一道工序进行加工处理。由此，通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标、工件指派规则和机器分配规则，实现多目标协同优化和完全实时化、自主化、无人化的智能工厂。

技术领域

本发明涉及动态调度技术领域，特别涉及一种基于深度强化学习的多目标柔性作业车间调度方法和装置。

背景技术

相关技术中，多目标柔性作业车间动态调度方法大多基于简单的调度规则或者元启发式算法，简单的调度规则主要包括先来先服务(First in First out,简称FIFO)、最短交货期优先(Earliest due date,简称EDD)、最长剩余加工时间优先(Most remainingprocessing time,简称MRPT)等，其在每个重调度时刻选取一个工件到一台机器上进行加工，其优点是具有较高的实时性，能对不确定事件立即做出响应，其缺点是具有短视性，从长期来看不能得到较好的调度方案，而且单一的调度规则往往适用于单一优化目标，无法实现多目标优化。

另外，元启发式算法主要包括遗传算法(genetic algorithm,简称GA)、粒子群优化算法(Particle swarm optimization,简称PSO)、蚁群优化算法(Ant colonyoptimization,简称ACO)等。其将动态调度问题分解为多阶段静态调度问题进行求解，即在每个重调度时刻对剩余所有未完成的工件统一进行考虑，通过复杂的智能优化算法在庞大的搜索空间内进行寻优，并形成全新的调度方案。其优点是能够获得较好的重调度方案，其缺点是运算时间较长，不具有实时性，在动态事件频发的情况下不适用。

传统动态调度方法大多针对简单的作业车间调度问题，既每道工序的加工机器提前给定，且只能由该台指定的机器进行加工，因此只需决定不同机器上各工序的加工顺序即可。而柔性作业车间调度问题中，每道工序可以由给定机器集合中的任意一台机器进行加工。相比于传统作业车间调度问题，既要考虑将每道工序安排到合适的机器上进行加工，也要考虑每台机器上各工序的加工顺序。其比简单的作业车间调度问题更加复杂，已被证明是NP-难题。因此，在各种不确定因素(例如插单和机器故障)并存且频繁发生的加工环境中，传统的柔性作业车间动态调度算法，特别是复杂的启发式算法由于需要耗费大量的计算时间，无法满足时效性，而简单的启发式规则由于具有短视性，且不能实现多目标优化，也无法对调度方案起到长期优化作用。

目前强化学习已经被广泛应用于解决各种动态调度问题，其中使用最多的算法便是Q学习，传统的Q-学习在训练过程中其需要维护一张庞大的Q-函数表，该表的每一行表示某个状态，每一列代表某个可选动作，每一个元素存储的便是某个状态下选取某个动作所对应的Q-函数值。一般而言，在每个重调度时刻只需选择该状态下Q-函数值最高的规则作为该时刻的调度规则即可。使用Q表，虽然具有简单直观的优点，但却存在“维数爆炸”的巨大隐患。即其状态总数随着状态特征维数的增长呈指数上升，这对于拥有巨大状态空间的实际调度问题来说是不可接受的。存储一张如此庞大而复杂的Q表不仅会引入巨大的计算负担，也会引入大量从未经历过的无用状态，降低了算法效率，以及现有的基于强化学习的动态调度算法往往只考虑单一优化目标(例如总拖期)，无法实现多目标优化。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于深度强化学习的多目标柔性作业车间实时重调度方法，通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标、工件指派规则以及机器分配规则，实现多目标优化以及完全实时化、自主化、无人化的智能工厂。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010983212.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种豇豆病虫害防治的方法
下一篇：一种便于夹持的金属材料表面除锈装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的多目标柔性作业车间调度方法和装置在审

专利文献下载