[发明专利]一种基于蚁群算法的多智能体强化学习路径规划方法有效
申请号: | 202011257321.1 | 申请日: | 2020-11-11 |
公开(公告)号: | CN112286203B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 候亚庆;张凯歌;葛宏伟;张强 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 智能 强化 学习 路径 规划 方法 | ||
1.一种基于蚁群算法的多智能体强化学习路径规划方法,其特征在于,包括如下步骤:
步骤(1):获取智能体集群当前环境信息及设置蚁群信息素地图;
步骤(2):获取智能体集群历史信息,所述历史信息包括历史状态信息及历史决策信息;
步骤(3):训练多智能体路径规划深度强化学习模型;多智能体路径规划深度强化学习模型采用基于Q学习的改进DQN深度强化学习方法,即基于优先经验回放的Dueling_DDQN算法,以及蚁群信息素协同机制;利用智能体集群历史信息对神经网络进行训练更新,神经网络的优化目标为获得最优的智能体路径规划策略;
步骤(4):利用训练好的多智能体路径规划深度强化学习模型为智能体集群规划最优路径;
所述步骤(1)具体如下:
(1.1)获取智能体集群中每个智能体的初始位置和目标位置信息,并以极坐标的形式存储;
(1.2)探测环境中的障碍物,并存储其极坐标信息;
(1.3)初始化环境中的信息素地图;
(1.4)智能体收集其状态信息,包括:自身传感器信号;自身距离目的地的偏角和距离;自身距离环境中信息素浓度最大位置,即吸引子的偏角和距离;以及自身在群体之中的序号;
(1.5)按照传感器信息、目标位置信息、信息素信息、自身序号的顺序,将收集到的状态信息抽象为一个多元组传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号,作为当前的状态描述;
所述步骤(3)具体如下:
(3.1)初始化共享经验池D,设置共享经验池大小为N,初始化蚁群信息素地图,设置信息素的扩散速率η和衰减率ρ,智能体集群中智能体数量Ω;
(3.2)利用随机权值θ初始化动作行为值函数Q;
(3.3)令θ-=θ,用权值θ-初始化时间差分目标动作行为值函数Q′,时间差分目标简称为TD目标;
(3.4)循环执行每个episode,episode=1,…,M,M为总的episode数量;
(3.5)对于智能体集群中的每个智能体i,选择吸引子j;其中,吸引子即环境中转移概率最大的位置,即
Ci,j(t)表示智能体i选择吸引子j的概率;其中,t=0,表示获取当前episode的第一个状态Si(0)所需的信息;εj(t)为吸引子j在时间t的信息素总量,ξi(t)是智能体i感知范围内的吸引子集合;di,j(t)是智能体i与吸引子j之间的欧几里得距离;D(·)是一个单调函数,表示随着di,j(t)的增大,信息素的影响力逐渐减弱;
(3.6)对于智能体集群中的每个智能体i,将自身的观测值Oi和所选吸引子的极坐标(ρi,θi)组成一个多元组作为当前状态Si(0)输入到Q中;
(3.7)循环当前episode的每个时间步t,t=1,…,T,T为最大试验次数;
(3.8)在当前时间步t,对于每个智能体i,依据贪婪概率ε选择一个随机动作at;
(3.9)若小概率事件没有发生,则用ε-greedy贪婪策略选择当前值函数最大的动作其中,Si(t)表示在时间步t智能体i的状态,a为可选的动作,θ为动作行为值函数Q(·)权值;
(3.10)智能体i执行动作at,并修改当前位置j的信息素含量;目的是在环境中留下额外的信息素,为后续吸引子的选择提供新的条件信息,过程公式化为:
其中,εj(·)表示位置j的信息素含量,σ表示在时间t+1智能体所释放的固定信息素量;ρ∈[0,1]表示信息素的衰减率,用来逐渐去除无用的吸引子;
(3.11)以固定的扩散速率η将数字信息素小范围扩散到周围区域,并将数字信息素的数量在同一位置线性叠加,其中η是属于0到1之间的常数;
(3.12)智能体i根据式(3)计算其获得的奖励ri(t+1)并转移到状态Si(t+1);采用奖励塑造的方法,给予智能体启发式的引导信息,指引智能体走向它的目标位置,具体如下:
其中,rarrive为成功抵达目的地的奖励,rcollision为相互之间发生碰撞的惩罚,rturn行进过程中拐弯的惩罚,rclose为预防式的靠近障碍的惩罚,rrange为靠近或远离目标点的奖励或惩罚,rattractor为靠近或远离吸引子的奖励或惩罚;
(3.13)在当前时间步t,将智能体i的经验(Si(t),at,ri(t+1),Si(t+1))存入共享经验池D中;
(3.14)当环境中所有智能体i都完成步骤(3.5)-(3.13)后,对于当前环境中已经被智能体集群占据的位置,以衰减率ρ减少其上的信息素含量,ρ是介于0到1之间的常量;
(3.15)从经验池中随机抽取容量为batch的数据样本(Sj,aj,rj+1,Sj+1),输入Q进行训练;
(3.16)判断是否是一个事件的终止状态,若是则TD目标为rj+1,否则利用TD目标网络θ-计算TD目标;其中,使用优化的Double DQN方法计算TD目标,计算过程如式(4)所示;
(3.17)执行梯度下降算法,公式如下:
其中,Δθ表示权值θ的梯度,α为学习率,r为即时奖励,γ为折扣因子;Q′(·)为TD目标动作行为值函数,其权值为θ-;表示动作行为值函数Q的梯度;
(3.18)更新动作值函数逼近的网络参数θ=θ+Δθ;
(3.19)每隔C步更新一次TD目标函数权值θ-,即令θ-=θ;
(3.20)当t=T时,结束每个episode内循环;
(3.21)当episode=M时,结束整个训练;
所述步骤(4)具体如下:
(4.1)智能体集群获取当前状态信息及初始化蚁群信息素地图,组成多元组传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号,作为当前的状态;
(4.2)对于集群中的每个智能体i,将步骤(4.1)中获取的状态多元组si传输给步骤(3)中训练好的多智能体路径规划深度强化学习模型;
(4.3)多智能体路径规划深度强化学习模型根据输入的状态信息si,输出智能体i动作空间中各个动作的价值,并按照ε-greedy方法选择前进方向作为自己将要执行的动作ai;
(4.4)对于集群中每个智能体i,执行自己的动作ai,环境随之被改变,智能体集群转移到新的状态;
(4.5)对于集群中每个智能体i,检测它们的状态:如果已到达自己的终点位置,则结束路径规划;每个智能体i走过的路径,就是它的最优路径;否则,重复步骤(4.2)-(4.5)所示的路径规划过程;最终获得智能体集群规划最优路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011257321.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种脱模液循环使用系统
- 下一篇:一种导向套加工多个工位的定位工装