[发明专利]一种基于梯度势的多智能体强化学习的无人导引车路径规划方法有效
申请号: | 201910119677.X | 申请日: | 2019-02-15 |
公开(公告)号: | CN109960259B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 张震;王凯;韩乔妮;王冬青;高军伟;刘辉 | 申请(专利权)人: | 青岛大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266071 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及智能优化技术领域。本发明的目的是使用基于梯度势的多智能体强化学习方法,优化无人导引车的行驶路径,从而提高无人导引车的运输效率。本发明将无人导引车路径网络中的每个交叉口设置为一个节点,每辆无人导引车配备定位装置和通信装置,可以与中央控制室进行双向实时通信,中央控制室存储每辆无人导引车经历的状态,以及从到达一个节点开始,至到达下一节点所用的时间。每当有一辆无人导引车完成任务后,中央控制室就使用基于梯度势的多智能体强化学习方法对该辆无人导引车的路径选择策略进行优化,并将优化后的路径选择策略发送给该辆无人导引车,供该辆无人导引车执行。 | ||
搜索关键词: | 一种 基于 梯度 智能 强化 学习 无人 导引 路径 规划 方法 | ||
【主权项】:
1.一种基于梯度势的多智能体强化学习的无人导引车路径规划方法,其特征在于:包括以下步骤:步骤1,定义无人导引车路径网络中的交叉路口为节点,定义距离目的地最近的节点为目的地节点,定义无人导引车当前可以前往的每个邻居节点是否有其他无人导引车正在前往以及是否为目的地节点为状态,定义无人导引车可以前往的下一节点为动作,定义无人导引车从到达当前节点至到达下一节点所用的时间为当前状态下选择该动作后获得的立即回报,定义无人导引车从一个状态开始选择一个动作后直至到达目的地节点所用的时间为该状态下选择该动作后获得的累积回报;步骤2,定义每辆无人导引车的路径选择策略为在每个状态下选择各个动作的概率分布,中央控制室初始化每辆无人导引车的路径选择策略为在每个状态下选择各个动作的概率相同,通过中央控制室将初始路径选择策略发送至所有无人导引车,在中央控制室设置每辆无人导引车对每个状态的最大访问次数为一个预先指定的常数,初始化每辆无人导引车访问每个状态x的次数为零,初始化每辆无人导引车在每个状态x下选择每个动作a的次数N(x,a)为零,初始化每辆无人导引车在每个状态x下选择每个动作a之后获得最大累积回报的次数Nmax(x,a)为零;步骤3,每当有一辆无人导引车到达一个节点后,如果当前节点是目的地节点,那么该辆无人导引车直接前往目的地,并向中央控制室发送自己刚刚到达的节点的编号和已经到达目的地节点这一信息,中央控制室记录该辆无人导引车到达节点的时刻,并且根据该辆无人导引车上次到达的节点的时刻,计算该辆无人导引车从到达上一节点至到达当前节点所用的时间,作为立即回报并加以存储,中央控制室根据该辆无人导引车在上一节点所处的状态spre和选择的动作apre把N(spre,apre)的值加1,如果当前节点不是目的地节点,那么该辆无人导引车向中央控制室发送自己当前所在的位置和刚刚到达的节点的编号,并且向中央控制室请求获取当前所处的状态,中央控制室记录该辆无人导引车到达节点的时刻,并且根据该辆无人导引车上次到达的节点的时刻,计算该辆无人导引车从到达上一节点至到达当前节点所用的时间,作为立即回报并加以存储,中央控制室根据该辆无人导引车在上一节点所处的状态spre和选择的动作apre把N(spre,apre)的值加1,之后,中央控制室向其他无人导引车请求获取当前位置和运动方向,其他无人导引车收到请求后将各自的当前位置和运动方向发送至中央控制室,中央控制室根据其他无人导引车的当前位置和运动方向按照步骤1中状态的定义来计算状态,之后,存储状态,将该辆无人导引车访问该状态的次数加一,并将状态发送给该辆无人导引车,该辆无人导引车根据当前状态,按照自己的路径选择策略指定的概率分布随机选择一个动作,然后回到步骤3;步骤4,每当有一辆无人导引车到达目的地节点时,中央控制室计算该辆无人导引车在完成此次任务的过程中所经历的每个状态s下选择实际执行的动作aselected后获得的累积回报,如果计算得到的累积回报大于等于最大累积回报,则把Nmax(s,aselected)的值加1,并且把最大累积回报设置为计算得到的累积回报,然后遍历该辆无人导引车所经历的每个状态s,如果状态s的访问次数超过状态s的最大访问次数,按照基于梯度势的方法调整该状态下选择动作的概率分布,步骤如下:a.中央控制室按照下列公式计算在状态s下采取每个动作a之后获得的最大累积回报的频率Fmax(s,a):b.中央控制室按照下列公式更新在状态s下采取每个动作a的概率p(a|s):其中,α表示学习率,取值为一个小于1并且大于零的常数,|A(s)|表示该辆无人导引车在状态s下可以选择的动作的数量,表示在状态s下选择动作a的梯度势;中央控制室把更新后的路径选择策略发送至该辆无人导引车,并将该辆无人导引车对状态s的访问次数重置为零,如果状态s的访问次数不超过状态s的最大访问次数,不改变状态s下选择各个动作的概率分布;步骤5,每当有一辆无人导引车完成指定数量的任务后,中央控制室停止对该辆无人导引车的路径选择策略进行优化,也停止更新该辆无人导引车访问每个状态x的次数、在每个状态x下选择每个动作a的次数N(x,a)和在每个状态x下选择每个动作a之后获得最大累积回报的次数Nmax(x,a),执行新的运输任务时,该辆无人导引车到达一个节点时,如果当前节点是目的地节点,该辆无人导引车直接前往目的地,并且向中央控制室发送已经到达的节点编号和已经到达目的地节点这一信息,如果当前节点不是目的地节点,该辆无人导引车向中央控制室发送当前所在的位置和已经到达的节点的编号,并且向中央控制室请求获取自己当前所处的状态,中央控制室向其他无人导引车请求获取当前位置和运动方向,其他无人导引车收到请求后将各自的当前位置和运动方向发送至中央控制室,中央控制室根据其他无人导引车的当前位置和运动方向和步骤1中对状态的定义计算该辆无人导引车的状态,并将状态发送给该辆无人导引车,该辆无人导引车根据自己当前的状态,每次选择具有最大概率的动作,如果该辆无人导引车没有完成指定数量的任务,则开始新的任务,并回到步骤3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛大学,未经青岛大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910119677.X/,转载请声明来源钻瓜专利网。
- 上一篇:安排系统
- 下一篇:一种自主导引车辆及其导航方法和控制装置