[发明专利]一种基于强化学习的集装箱装卸智能化方法及系统在审

申请号：	202111284086.1	申请日：	2021-11-01
公开（公告）号：	CN114186712A	公开（公告）日：	2022-03-15
发明（设计）人：	孔雨昕;陈志勇;史玉良	申请（专利权）人：	山东大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/06;G06Q10/08;G06N20/00
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	张勇
地址：	250101 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习集装箱装卸智能化方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的集装箱装卸智能化方法，其特征在于，包括：

获取集装箱尺寸数据和装卸计划；

获取多个智能体的初始状态、参数以及分配任务；

根据分配任务，利用智能体强化学习模型得出决策结果；

其中，所述智能体包括堆场智能体、装卸设备智能体和泊位智能体，所述利用智能体强化学习模型得出决策结果，包括对分配任务和智能体进行划分，建立智能体强化学习模型，并设置每个智能体在环境中的状态空间、动作空间及奖励值。

2.如权利要求1所述的一种基于强化学习的集装箱装卸智能化方法，其特征在于，所述智能体的初始状态包括泊位智能体的使用情况及泊位规格，装卸设备智能体的使用情况及规格、种类，堆场智能体的在场箱情况。

3.如权利要求2所述的一种基于强化学习的集装箱装卸智能化方法，其特征在于，所述智能体根据分配的任务及自身状态，得到决策动作，经过K步计算后，计算已存决策动作及状态特征。

4.如权利要求3所述的一种基于强化学习的集装箱装卸智能化方法，其特征在于，所述智能体将K步决策动作后将形成的状态特征、决策动作和奖励值上传至经验池，形成经验。

5.如权利要求4所述的一种基于强化学习的集装箱装卸智能化方法，其特征在于，上传经验池后，对智能体的参数进行聚合处理，并将聚合结果返回给智能体进行参数更新。

6.如权利要求5所述的一种基于强化学习的集装箱装卸智能化方法，其特征在于，参数更新后，根据抽样概率抽样全部经验，所述智能体根据抽样经验迭代训练优化智能体强化学习模型，直到完成所有任务。

7.如权利要求6所述的一种基于强化学习的集装箱装卸智能化方法，其特征在于，所述对智能体的参数进行聚合处理，包括利用智能体的参数和价值函数更新公式，生成TD-error。

8.一种基于强化学习的集装箱装卸智能化系统，其特征在于，包括：

数据获取模块，被配置为，获取智能体的初始状态、参数以及分配任务；

强化学习模块，被配置为，根据分配任务，利用智能体强化学习模型得出决策结果；

其中，所述智能体通过强化学习模型，根据分配目标得出决策动作，并将该决策动作及对应状态特征进行经验暂存。

9.一种计算机可读存储介质，其特征在于：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种基于强化学习的集装箱装卸智能化方法。

10.一种终端设备，其特征在于：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种基于强化学习的集装箱装卸智能化方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111284086.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载