[发明专利]基于DQN的不确定车间环境下物料配送实时优化方法有效

申请号：	202110439428.6	申请日：	2021-04-23
公开（公告）号：	CN113128770B	公开（公告）日：	2022-08-09
发明（设计）人：	袁逸萍;任年鲁;巴智勇;熊攀	申请（专利权）人：	新疆大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/08;G06K9/62;G06N3/00;G06N3/04;G06N3/08
代理公司：	南京天华专利代理有限责任公司 32218	代理人：	肖丽
地址：	830001 新疆维吾***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 dqn 不确定车间环境物料配送实时优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于DQN的不确定车间环境下物料配送实时优化方法，包括以下步骤：

S1：不确定车间环境建模

考虑到物料需求和配送阶段的动态扰动，以动态时间窗表征物料需求阶段的扰动，以路径实时路阻系数表征物料配送阶段的扰动，以提高物料配送的准确性：

S11：建立物料需求动态时间窗计算模块；

在物料需求阶段，考虑直接影响工位i的加工时间的扰动因素，包括设备故障、设备疲劳程度、工件返工和工人操作熟练程度，缓存区的传感设备实时感知工位i物料消耗率mv_i的波动范围和实时物料量realn_i，根据工位i物料消耗率mv_i波动数据，结合加权平均法求得工位i加权平均物料消耗率具体表达式如公式(1)所示；工位i物料需求动态时间窗上限t_ib为工位i物料缓存区实时物料量realn_i达到其安全物料量safen_i的时刻；工位i物料需求动态时间窗下限t_ie等于工位i物料需求动态时间窗上限t_ib加上工位i物料缓存区安全物料量safen_i除工位i加权平均物料消耗率的数值，具体表示式如公式(2)所示；当工位i设备发生故障时，工位i物料消耗率mv_i等于0，因此，工位i新的物料需求动态时间窗(t_ib，t_ie)等于其旧的时间窗加上工位i设备的修复时间rt_i，具体表达式如公式(3)所示：

式中：w_j为工位i实时物料消耗率等于mv_i，j的数量；

(t_ib+Δt，t_ie+Δt)＝(t_ib+rt_i，t_ie+rt_i) (3)

式中：Δt表示时间变化量；

S12：建立路径实时路阻系数计算模块；

在离散制造车间物料配送过程中出现的不同AGV的旅行速度不同造成的追击冲突、单向路径下AGV旅行方向不同造成的对向冲突和多辆AGV要同时通过路口造成的路口冲突，造成AGV不能在预期时间将物料配送至相应工位；

为了对车间路径路阻系数进行量化，建立了离散制造车间路径路阻函数，具体表达式如公式(4)所示：

式中：为某一自动导引运输车AGVi在路径i上实际旅行时间，在历史数据中获取；为AGVi在路径i上理想旅行时间，等于路径i长度pd_i除AGVi的速度av_i；q_i为路径i上的AGVi和其他移动设备的数量，在历史和实时数据中获取；c_i为路径i的通行能力，考虑工位数量、单双向路径和路口类型对路径通行能力的影响；α和β为阻滞系数，均为代标定参数；

标定路径i的通行能力c_i，考虑途中工位数量stn_i、单双向路径ptn_i和路口类型mtn_i三种影响因素，标定的数值越大表示路径通行能力越好；路径i的通行能力c_i的具体表达式如公式(5)所示：

c_i＝0.5·ptn_i+0.3·mtn_i+0.2·stn_i (5)

式中，路径i为单向路径ptn_i取数值为1，双向路径ptn_i取数值为2；

路口类型为路径i两端是两个十字路口时mtn_i取数值为1；路口类型由一个丁字路口和一个直角路口组成时mtn_i取数值为5；路口类型由一个十字路口和一个丁字路口组成时mtn_i取数值为2；路口类型由一个十字路口和一个直角路口组成时mtn_i取数值为4；路口类型由两个丁字路口组成时mtn_i取数值为3；

maxst为一条路径i途中所能设立的最大工位数，st为一条路径途中设立的工位数，一条路径的通行能力stn_i与工位数st的关系如公式(a)所示：

对参数α和β进行标定，首先对离散制造车间路径路阻函数进行线性化处理，过程如下所示：

令：

ln α＝b，β＝a (8)

将式(7)、(8)、(9)带入式(6)可得：y＝b+ax，即可进行一元线性回归分析，采用最小二乘法对参数α和β进行标定；

式中：x_h和y_h表示在历史数据提取的h组数据，和表示在历史数据提取的h组数据的平均值；

将式(10)和(11)带入式(8)可标定参数α和β；参数α和β标定后，就可求得每条路径的实时路阻系数realb_i，具体表示式如公式(12)所示：

式中：路径i的通行能力c_i由公式(5)求得；路径i上的AGVi和其他移动设备数量q_i在实时数据中获取；

S2：半马尔可夫决策过程建模

S21：状态空间表示；

不确定环境下离散制造车间状态空间主要包括工位状态、任务状态、AGVi状态和路径状态四要素，由向量s＝[s_w，s_m，s_a，s_p]表示；

工位状态用向量s_w＝[realn_i，t_(i，n＝0)]表示；

其中，realn_i为工位i的物料缓存区实时物料量，用于当AGVi到达工位i时奖励的判断条件；t_(i，n＝0)为工位i物料缓存量为0的时刻，用于当AGVi到达工位i时计算惩罚成本的条件；

任务状态用向量s_m＝[(sx_i，sy_i)，tp_i，n_(tp，i)，(t_ib，t_ie)]表示；

其中，(sx_i，sy_i)表示目标工位i的位置坐标，用来判断是否为本回合终止状态；tp_i表示目标工位i所需的物料类型，确保物料配送到正确工位；n_(tp，i)表示目标工位i所需物料的数量，等于工位i物料缓存区最大容量减去工位i的物料缓存区实时物料量；

AGVi状态用向量s_a＝[as_i，av_i，(ax_i，ay_i)，reala_i，t_is]表示；

其中，as_i表示AGV i的工作状态，0表示“空闲”，1表示“工作”；av_i表示AGV i的旅行速度，计算奖励值的条件之一；(ax_i，ay_i)表示AGV i实时位置坐标，ax_i表示AGV i实时位置的x坐标，ay_i表示AGV i实时位置的y坐标；reala_i表示AGV i实时容载量，需满足确保每次物料配送不超过其自身最大容载量；t_is表示AGV i完成工位s配送任务的时刻，是计算AGV i到达工位s时的惩罚成本的条件；

路径状态用向量s_p＝[d_cd，pb_i，realb_i]表示；

其中，d_cd表示相邻决策点c到d之间的距离，用于计算每次决策的时间成本；pb_i表示路径i的堵塞状态，1表示“通畅”，∞表示“堵塞”；为了使AGVi旅行时间最小化，在AGVi走线前应计算考虑障碍物的最短路径；AGVi失效、AGVi死锁、其他设备占用车道和其他人为因素都会造成AGVi配送路径的临时阻塞；

S22：全局动作空间表示；

在物料配送过程中，AGVi的动作是从等待和各条路径之间做出选择，是离散的；全局动作空间表示为：a＝[0，1，2，3，…，n]；0表示AGVi停止运行原地等待，1到n表示路径1到路径n；

S23：局部动作空间表示；

当AGVi处于路径i时，部分路径与路径i是没有相连接的，所以只有部分动作是合法的；路径i下合法的局部动作空间表示为：

a_i＝[0，…，g，…，h]，0＜g and h＜n，a_i∈a；

S24：奖励函数设计；

不确定车间环境下路径的路阻系数不断变化，不同时段的物料配送时间成本不同，及时作出决策响应扰动可降低时间成本；不确定车间环境下物料不能准时送至相应工位会造成工位停工等待，停工等待时间越久惩罚成本越高；AGVi从相邻决策点j到k的时间成本AGV i完成工位s配送任务总的时间成本和AGV i完成工位s配送任务的惩罚成本定义如下所示：

式中：c₀表示单位时间固定配送成本，realb_jk表示相邻决策点j到k之间的路阻系数，av_i表示AGV i的旅行速度，表示AGV i从决策点j到k的行驶时间，m表示完成工位s配送任务AGV i总的决策次数，表示AGV i完成工位s配送任务的总行驶时间；

式中：realn_s表示工位s的物料缓存区的实时物料量，c₁表示单位时间等待成本，t_isn表示AGV i完成工位s配送任务的延迟时间；具体如下：

t_isn＝(t_is-t_(s，n＝0)) (16)

式中，t_is表示AGV i完成工位s配送任务的时刻，t_(s，n＝0)表示工位s物料缓存区物料量为0的时刻，

AGV i完成工位s配送任务的总成本计算公式如下：

另外，根据AGV i完成工位s配送任务总的时间成本和AGV i完成工位s配送任务的惩罚成本定义总奖励，总奖励r包括DQN与环境交互的主线奖励，具体如公式(18)所示：

其中：σ表示惩罚成本系数；

S3：基于DQN的实时决策模型的建立

S31：两个Q值网络的建立；

采用两个具有相同神经网络结构的全连接神经网络即评价Q网络和目标Q网络作为深度Q网络DQN的Q值函数的逼近器Q(s，a，θ)≈Q_π(s，a)，其中θ表示相应神经网络的所有参数；通过不断迭代更新神经网络的参数来改进动作状态函数；评价Q网络和目标Q网络都包括一个输入层、两个隐藏层、一个输出层；

S32：DQN实时决策模型的训练

在训练过程中，评价Q网络负责与环境交互，获取交互数据样本，具体过程如下：

在状态s下，AGVi代理在每一步行动a后获得的环境反馈的总奖励r，并到达下一个状态s′，AGVi代理将其探索制造车间环境得到的数据以(s，a，r，s′)的统一形式存储到回放记忆库中；然后每次学习时从回放记忆库中随机采样数据样本以打破数据之间的相关性；采样数据将分别传输到具有相同网络结构的评价Q网络和目标Q网络，评价Q网络的参数表示为θ，目标Q网络的参数表示为θ′；在学习过程中，通过评价Q网络计算当前动作值函数Q(s，a；θ)，通过目标Q网络预测下一状态最优动作值函数max_a′Q(s′，a′；θ′)，然后根据贝尔曼方程计算出目标Q网络参数下的当前动作值函数Q(s，a；θ′)，再根据两个Q网络的误差计算损失函数L(θ)，如下所示：

L(θ)＝E(r+γmax_a′Q(s′，a′；θ′)-Q(s，a；θ))² (20)

然后使用随机梯度下降SGD算法更新评价Q网络的参数θ，通过不断迭代从而得到最优的Q值；

最后，每隔N步迭代后目标Q网络的参数θ′更新为评价Q网络的参数θ，即可进行下一阶段的学习；

S4：基于DQN的物料配送实时决策优化过程

基于DQN的物料配送实时优化方法训练稳定后，指导各个AGV在不确定车间环境下实时响应扰动并做出合适的动作选择，以较小的成本快速完成物料配送任务：

首先，根据公式(3)计算当前所有任务的物料需求动态时间窗，根据物料需求动态时间窗的下限确定物料配送任务的优先级，优先级高的配送任务被触发；然后根据公式(12)计算当前时刻所有路径的路阻系数；最后，将实时感知到的离散车间所有关键状态数据传输到训练稳定的DQN中；DQN计算出当前状态下的最佳动作，然后传输给各个AGV，各个AGV接受到命令执行相应动作，直到完成当前选定的物料配送任务；

重复以上步骤，直到完成车间所有物料配送任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新疆大学，未经新疆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110439428.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于空心板受力铰缝清理后拉毛设备
下一篇：一种基于深度学习的网络加密流量识别方法、装置及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于DQN的不确定车间环境下物料配送实时优化方法有效

专利文献下载