[发明专利]一种基于梯度势的多智能体强化学习的无人导引车路径规划方法有效
申请号: | 201910119677.X | 申请日: | 2019-02-15 |
公开(公告)号: | CN109960259B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 张震;王凯;韩乔妮;王冬青;高军伟;刘辉 | 申请(专利权)人: | 青岛大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266071 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 智能 强化 学习 无人 导引 路径 规划 方法 | ||
本发明涉及智能优化技术领域。本发明的目的是使用基于梯度势的多智能体强化学习方法,优化无人导引车的行驶路径,从而提高无人导引车的运输效率。本发明将无人导引车路径网络中的每个交叉口设置为一个节点,每辆无人导引车配备定位装置和通信装置,可以与中央控制室进行双向实时通信,中央控制室存储每辆无人导引车经历的状态,以及从到达一个节点开始,至到达下一节点所用的时间。每当有一辆无人导引车完成任务后,中央控制室就使用基于梯度势的多智能体强化学习方法对该辆无人导引车的路径选择策略进行优化,并将优化后的路径选择策略发送给该辆无人导引车,供该辆无人导引车执行。
技术领域
本发明涉及智能优化技术领域。
背景技术
近年来无人导引车逐步应用于无人码头,分拣货仓和生产车间,提高了生产效率,降低了生产成本。无人导引车的路径规划方法对运输效率的影响十分关键,各种路径规划方法应运而生。
现有的路径规划方法通过建立运筹学模型来求解各台车辆的最短距离路径或最短时间路径,没有考虑多台无人导引车之间的相互影响,因此无人导引车到达目的地所用的真实时间与计算结果之间存在不可避免的偏差。使用基于梯度势的多智能体强化学习方法,把多台无人导引车之间的相互影响考虑进来,使用无人导引车到达路径网络各个节点所用的真实时间进行路径规划,能够生成真正意义上的最短时间路径。
发明内容
本发明的目的是使用基于梯度势的多智能体强化学习方法,优化无人导引车的行驶路径。最终目的是为了提高无人导引车完成任务的效率。
本发明将无人导引车路径网络中的每个交叉口设置为一个节点,每辆无人导引车配备定位装置和通信装置,可以与中央控制室进行双向实时通信,中央控制室存储每辆无人导引车经历的状态,以及从到达一个节点开始,至到达下一节点所用的时间。每当有一辆无人导引车完成任务后,中央控制室就使用基于梯度势的多智能体强化学习方法对该辆无人导引车的路径选择策略进行优化,并将优化后的路径选择策略发送给该辆无人导引车,供该辆无人导引车执行。
本发明提出一种基于梯度势的多智能体强化学习的无人导引车路径规划方法,包括以下步骤:
步骤1,定义无人导引车路径网络中的交叉路口为节点,定义距离目的地最近的节点为目的地节点,定义无人导引车当前可以前往的每个邻居节点是否有其他无人导引车正在前往以及是否为目的地节点为状态,定义无人导引车可以前往的下一节点为动作,定义无人导引车从到达当前节点至到达下一节点所用的时间为当前状态下选择该动作后获得的立即回报,定义无人导引车从一个状态开始选择一个动作后直至到达目的地节点所用的时间为该状态下选择该动作后获得的累积回报;
步骤2,定义每辆无人导引车的路径选择策略为在每个状态下选择各个动作的概率分布,中央控制室初始化每辆无人导引车的路径选择策略为在每个状态下选择各个动作的概率相同,通过中央控制室将初始路径选择策略发送至所有无人导引车,在中央控制室设置每辆无人导引车对每个状态的最大访问次数为一个预先指定的常数,初始化每辆无人导引车访问每个状态x的次数为零,初始化每辆无人导引车在每个状态x下选择每个动作a的次数N(x,a)为零,初始化每辆无人导引车在每个状态x下选择每个动作a之后获得最大累积回报的次数Nmax(x,a)为零;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛大学,未经青岛大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910119677.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:安排系统
- 下一篇:一种自主导引车辆及其导航方法和控制装置