[发明专利]一种不完全提箱信息下的集装箱堆场翻箱落位优选方法有效

申请号：	201910487079.8	申请日：	2019-06-05
公开（公告）号：	CN110203708B	公开（公告）日：	2020-04-14
发明（设计）人：	周鹏飞;叶倩倩	申请（专利权）人：	大连理工大学
主分类号：	B65G63/00	分类号：	B65G63/00;B65G43/00;B65G47/248
代理公司：	大连智高专利事务所(特殊普通合伙) 21235	代理人：	盖小静
地址：	116023 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种不完全提箱信息集装箱堆场翻箱落位优选方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：步骤1，利用集装箱堆场提箱作业仿真对设计的Q值表进行模拟学习，获得模拟学习后的Q值表；步骤2，利用学习后的Q值表和动作选择策略动态生成集装箱翻箱落位的动作指令，根据动作指令选择待翻箱的落箱箱位，在堆场提箱作业过程中根据动作指令的执行反馈来自适应地更新Q值表；

步骤1的具体实现步骤是：

步骤11：用0值初始化Q(s_t，a_t)值表，设置折扣因子γ、参数α₀和p_α，探索策略参数ε₀和p_ε，终止判断参数N_e和e_T；

步骤12：令参数n＝0，ES＝0，E＝0；

步骤13：接收集装箱堆场提箱作业模拟系统的翻箱落位动作指令请求，请求中包括当前翻箱落位状态信息s_t；

步骤14：利用学习阶段探索策略选择动作a_t，生成翻箱落位动作指令，传输给集装箱堆场提箱作业模拟系统；令参数tmp＝Q(s_t，a_t)；

步骤15：接收集装箱堆场提箱作业模拟系统执行翻箱落位动作a_t后的立即回报函数r和后续新状态s_t+1，利用Q值更新方程更新Q值表中的Q(s_t，a_t)项；

步骤16：令参数E＝E+|Q(s_t，a_t)-tmp|，ES＝ES+Q(s_t，a_t)；

步骤17：如果n＜N_e，那么n＝n+1，转步骤12；否则，转步骤18；

步骤18：如果e_T＜E/ES，转步骤12；否则，输出Q值表，结束。

2.根据权利要求1所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：学习阶段探索策略具体为：

步骤141：计算当前动态的动作探索概率ε_τ；

步骤142：随机生成一个0～1之间的数k；