[发明专利]一种基于深度强化学习的流水车间调度方法有效
申请号: | 202110177144.4 | 申请日: | 2021-02-09 |
公开(公告)号: | CN112987664B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 戚放;任涛;王心悦;董卓然;张皓东 | 申请(专利权)人: | 东北大学 |
主分类号: | G05B19/418 | 分类号: | G05B19/418 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 流水 车间 调度 方法 | ||
1.一种基于深度强化学习的流水车间调度方法,其特征在于,包括如下步骤:
步骤1:生成用于训练的流水车间问题数据集,并按比例分割为训练集、验证集和测试集,过程如下:
步骤1.1:初始化问题规模指定工件数记为j和机器数记为m,子任务在机器上处理时间的上界a与下界b,指定生成数据的随机seed种子值;
步骤1.2:使用pytorch中的FloatTensor根据seed种子和上、下界值随机生成每个工件在每台机器上的处理时间;
步骤1.3:多次执行步骤1.2,产生的数据集记为流水车间问题数据集T;
步骤2:以指针网络的网络形式初始化策略网络的网络结构,包括嵌入层、图编码器和解码器;
步骤3:使用mini-batch的方式对网络进行训练,将作业的向量表示输入到步骤2的网络结构的嵌入层中进行嵌入处理,再输入到编码器中,对该问题的所有作业节点进行编码,利用Attention机制聚合编码后的信息;每个时间步选择概率最大的工件作为当前时间步选择的工件加入到调度序列中直到获得完整序列,并使用奖励值更新网络参数;
步骤4:加载模型文件,将新的问题矩阵或使用测试集数据输入模型,得到调度序列。
2.根据权利要求1所述的基于深度强化学习的流水车间调度方法,其特征在于:所述流水车间问题数据集为b*j*m大小的问题矩阵,其中b为训练或验证的样本数大小batchsize,j为工件数,m为机器数。
3.根据权利要求1所述的基于深度强化学习的流水车间调度方法,其特征在于:所述嵌入层embedding使用Linear结构;所述图编码器和解码器均为LSTM网络,长度为j。
4.根据权利要求1所述的基于深度强化学习的流水车间调度方法,其特征在于:所述指针网络结合注意力Attention机制,如下式:
当编码器当前时间步的参考向量集合ro的其中之一和解码器隐藏状态,相似度最高时,q对应该解码器将指向相似度最高的参考向量所对应的作业;所述参考向量集合ro由编码器编码输入序列后得到的隐藏向量集合构成,r0={enc1,...,encj};其中k为当前时间步之前的所有时间步,π(k)表示第k时间步选择的作业标号,为当前时间步指针向量的第o个元素,o∈(0,...,j);vT、Wref和Wq都为需要学习的权重矩阵;使用tanh非线性激活函数将输出值限制在-1和1之间,使用softmax函数转换相似度为概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110177144.4/1.html,转载请声明来源钻瓜专利网。