[发明专利]一种集装箱区垂直布置的双自动化场桥动态调度方法有效

申请号：	202011382363.8	申请日：	2020-12-01
公开（公告）号：	CN112434870B	公开（公告）日：	2022-10-11
发明（设计）人：	周鹏飞;高雪峰	申请（专利权）人：	大连理工大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/06;G06Q10/08;G06N3/04;G06N3/08
代理公司：	大连智高专利事务所(特殊普通合伙) 21235	代理人：	盖小静
地址：	116023 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种集装箱垂直布置自动化动态调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，在训练学习阶段包括场桥调度Agent的深度置信神经网络DBN无监督学习步骤、场桥调度Agent的深度置信神经网络DBN有监督学习步骤；在自适应调度应用阶段包括场桥调度Agent的动作选择与自适应学习步骤；

所述场桥调度Agent的深度置信神经网络DBN无监督学习步骤，包括：

基于集装箱码头实际作业记录数据，获得无监督训练样本集J₁，所述样本集J₁包括场桥调度Agent的环境状态向量s；

构建场桥调度Agent的深度置信神经网络DBN；

利用样本集J₁无监督训练DBN的第1层受限玻尔兹曼机RBM网络参数θ₁；

利用训练后的RBM网络生成下一层RBM网络训练样本集J_i+1，并对下一层RBM网络参数进行无监督训练，直至DBN所有隐含层无监督训练完毕；

所述场桥调度Agent的深度置信神经网络DBN有监督学习步骤，包括：

将无监督训练后的DBN复制两份，分别称为动作DBN和目标DBN，其网络参数向量分别表示为θ和θ'；动作DBN用于训练场桥调度Agent动作的选择，其网络参数θ根据小批量训练样本进行学习更新；目标DBN用于存储之前的学习参数并生成动作DBN训练样本标签值，其网络参数θ'根据动作DBN的参数θ进行柔性更新；

DBN有监督学习初始时，其经验回放样本池为空，场桥调度Agent依据动作探索利用策略选择当前场桥作业环境状态s下的动作a⁺；

依据场桥执行动作a⁺后环境返回的立即回报r和下一环境状态s'计算获得q_a，并构造有监督学习样本s,a⁺,q_a；

若有监督经验回放样本池中的样本量小于容量上限，则将学习样本s,a⁺,q_a加入样本池；否则，用学习样本s,a⁺,q_a随机替换样本池中的一个旧样本；重复进行有监督学习，直至满足动作DBN更新条件；

从经验回放样本池中随机选取小批量学习样本s,a⁺,q_a，依据损失函数计算小批量样本集的误差损失值，并利用梯度下降法反向更新动作DBN的网络参数θ；

用动作DBN的网络参数θ更新目标DBN网络参数θ'；重复进行有监督学习，直至满足迭代次数要求；

所述场桥调度Agent的动作选择与自适应学习步骤，包括：

经过训练的场桥调度Agent接收到环境发来的场桥动作指令请求，场桥调度Agent依据最优动作选择策略和当前场桥的环境状态s选择最优的场桥动作a^*；

依据执行场桥动作a^*后环境返回的立即回报r和场桥的下一环境状态s'计算获取q_a，并构造场桥调度Agent有监督学习样本s,a^*,q_a；

根据损失函数获取当前样本的误差损失值，并利用梯度下降算法反向更新场桥调度Agent动作DBN的网络参数θ；

场桥调度Agent的动作DBN网络参数θ每更新一定次数后，利用所述动作DBN网络参数θ更新一次目标DBN网络参数θ'。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载