[发明专利]一种基于人工势场法和MADDPG的多无人机运动规划方法有效
申请号: | 202110183956.X | 申请日: | 2021-02-10 |
公开(公告)号: | CN112947562B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 万开方;武鼎威;高晓光;胡子剑 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工 势场法 maddpg 无人机 运动 规划 方法 | ||
1.一种基于人工势场法和MADDPG的多无人机运动规划方法,其特征在于,包括以下步骤:
步骤1:建立多无人机和障碍物模型;
步骤1-1:设定无人机和障碍物的物理模型:
设定无人机为圆形的智能体,无人机i的半径为ri;设定障碍物形状为圆形,障碍物半径为ro,无人机与障碍物的碰撞距离Dio=ri+ro;无人机i的目标位置为一个圆形空间,半径为rig,当无人机i接触到目标范围,即无人机i中心位置与目标范围中心位置的距离Dig≤ri+rig时,即判定无人机i成功到达目标位置;
无人机i的位置设置为Pi=[xi yi]T,无人机的通信距离表示为Lc,无人机的通信范围为以无人机中心为圆心,以Lc为半径的圆形;在无人机的通信范围内,无人机能感知到其它无人机或障碍物的信息;
无人机i运动的线速度表示为ui,无人机i与X轴正方向的夹角为ψi,ψi的范围为(-π,π];αi为目标速度角,目标速度角表示以无人机i中心为原点,以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值,αi范围为(-π,π];ωi表示无人机i运动角速度;
步骤1-2:设定无人机和障碍物的运动模型:
设定无人机和障碍物在二维空间中运动,单个无人机的运动模型表示为:
其中,和分别为无人机沿X、Y轴的速度分量,为无人机的角速度,ψ为无人机与X轴正方向的夹角,u为无人机运动的线速度,ω表示无人机运动的角速度;
设定无人机下一时刻位置为P′=[x′ y′]T,无人机下一时刻与X轴正方向的夹角为ψ′,运动间隔时间为Δt,则下一时刻无人机的状态如下:
障碍物的运动模型与无人机相同;
步骤2:构建用于多无人机运动规划的马尔科夫博弈模型;
步骤2-1:马尔科夫博弈模型用五元组N,S,A,P,R来描述,每个分量具体解释如下:N={1,2,…,n},表示n个无人机的集合;S为联合状态,S=s1×s2×…×sn,表示所有无人机的状态的笛卡尔积,其中si代表着无人机i的状态;A为联合动作,A=a1×a2×…×an,表示所有无人机的动作的笛卡尔积,ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×…×Rn,其中Ri表示无人机i与环境交互获得的奖励值;
步骤2-2:设定无人机的状态空间:
在极坐标系下设置每个无人机的状态空间;
将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(sA,sU,sE),其中,sA=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;sU=(Pjx,Pjy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息,如果通讯范围内无其他无人机,则sU=(0,0);sE=(Pkx,Pky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则sE=(0,0);
步骤2-3:设定无人机的动作空间:
将无人机设定为匀速运动状态,无人机i的动作空间设置为:ai=(ωit),ωit为t时刻无人机i的角速度值;
步骤2-4:设定无人机的奖励函数:
无人机i的奖励函数具体设置如下:
其中,式(1)表示无人机到达目标时的奖励值,表示无人机到达目标消耗时间的惩罚值,Wt表示惩罚程度的参数值,Ti为无人机到达目标消耗的具体时间值,表示无人机以ui的线速度沿直线到达目标位置时所需的最短时间,Pi0和Pig分别表示无人机的初始位置和目标位置;式(2)为无人机在碰撞情况下的奖励值;式(3)为碰撞预警,选取通信距离Lc的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物,当前时刻无人机与危险障碍物之间的欧氏距离为Diod,当无人机与危险障碍物之间在下一时刻的欧氏距离D′iod小于Diod时,在式(4)的基础上给予负常数τ作为惩罚;式(4)为无人机的密集回报函数,惩罚程度随着无人机的目标速度角α的增大而增加;
步骤3:构建MADDPG算法神经网络:
步骤3-1:构建MADDPG算法中的Actor策略网络:
无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
步骤3-2:构建MADDPG算法中的Critic评价网络:
无人机i的评价网络由输入层、隐藏层和输出层组成,输入为所有无人机的状态向量x=(s1,…,sn)和所有无人机根据各自的策略网络得到的动作a1,…,an,输出为无人机i的动作值函数,为集中的动作值函数
步骤3-3:构建目标神经网络:
对于无人机i,将策略网络μi和评价网络的参数复制到各自对应的目标网络中,即其中分别表示当前策略网络和评价网络的参数,分别表示目标策略网络和目标评价网络的参数;
步骤4:定义MADDPG算法训练多无人机的避障运动策略实现方式;
步骤4-1:设置无人机和障碍物的物理模型和运动模型,设定无人机和障碍物的半径大小和碰撞距离、设定无人机的速度大小和通信距离以及设定目标范围的半径大小,同时设定经验池的容量大小M以及训练步长Δt;
步骤4-2:设定策略网络和评价网络的超参数,包括学习率、网络层数和节点数、激活函数、抽样训练的样本数量N以及训练优化器;
步骤4-3:初始化噪声向量NA和训练环境,在设定的训练环境内随机设置无人机和障碍物的初始位置,初始化网络参数和所有无人机的状态信息;设定选取动作方式的概率值p0并生成一个随机数p,p∈[0,1];
步骤4-4:对所有无人机选择动作的方式进行判定,如果p≤p0,则转到步骤4-5;如果pp0,则转到步骤4-6;
步骤4-5:根据人工势场法,对于每个无人机通过其状态信息选择动作,最终将所有无人机规划至目标;具体方式为:
计算无人机i在位置Pi=[xi yi]T时所受到的来自目标位置的引力同时计算受到通信范围内其他无人机或障碍物对它施加的合斥力之后计算它受到的合力表示为:
其中,Ni为无人机i的相邻物体的集合,相邻物体为无人机i通信范围内的其它无人机或者障碍物,σij为碰撞函数,表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度;
获得无人机i受到的合力之后,设置无人机i的线速度ui为常数值,根据控制率获得它采取的动作ai,即无人机i的角速度ωi,表达式为:
其中kω为角速度控制常数,表示合力的方向角度,表示合力在X方向的分量,表示合力在Y方向的分量,表示在位置Pi时对时间的导数值,表达式如下:
步骤4-6:根据策略网络,通过每个无人机的状态信息选择动作;具体如下:
对于无人机i,通过其策略网络μi,根据无人机i的状态信息si选择动作ai,表达式为:
其中,代表确定性策略函数;
步骤4-7:根据所有无人机的动作信息与环境交互,对于无人机i,获得其奖励函数值Ri和下一时刻的状态信息s′i;
步骤4-8:计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R,将样本(x,a,R,x′)存入经验池;之后更新所有无人机的状态信息,对于无人机i,即s′i→si;
步骤4-9:判断经验池的样本数量Mn是否到达M,如果MnM,则转到步骤4-4;如果Mn≥M,则转到步骤4-10;
步骤4-10:从经验池中随机抽取N个样本通过目标神经网络进行训练,对于无人机i,设定网络更新目标为:
其中,Ri为无人机i在该时刻的奖励值,γ为折扣系数,为目标策略网络集合,表示根据下一时刻的状态信息集采取策略集μ′采取动作集得到的动作值函数;
步骤4-11:根据最小损失函数更新评价网络参数:
其中表示Loss损失函数;
步骤4-12:根据梯度下降更新策略网络参数:
其中,表示在策略网络参数下的策略梯度,和分别表示评价网络动作值函数梯度和策略网络策略函数梯度,μi(ai|si)表示策略网络在状态si时选取的动作策略得到的动作,表示状态si下采取动作ai=μi(si)时评价网络的动作值函数;
步骤4-13:对目标评价网络和目标策略网络的参数更新,表达式为:
更新方式为软更新,其中θ为软更新比例系数;
步骤5:在多无人机运动规划的任务场景中通过MADDPG算法训练多无人机的避障运动策略:
步骤5-1:设定训练回合数E和每个回合内的最大训练时间T;
步骤5-2:令训练时间t加Δt,并对t进行判定:若tT,进入步骤4-4,继续在当前回合内对所有无人机进行训练;否则,进入步骤5-3;
步骤5-3:令训练回合数e加1,并对e进行判定:若eE,则进入步骤4-3,在第e+1回合对所有无人机进行训练;否则,进入步骤5-4;
步骤5-4:迭代终止,终止目标神经网络训练过程,并保存当前策略网络和评价网络的参数数据;将保存好的网络数据加载至多个无人机之中,使多无人机根据训练好的网络执行飞行动作,完成多无人机运动规划任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183956.X/1.html,转载请声明来源钻瓜专利网。