[发明专利]一种基于强化学习与线性规划的快速空管防冲突方法有效
申请号: | 202011040999.4 | 申请日: | 2020-09-28 |
公开(公告)号: | CN111882047B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 李辉;文瀚;王壮 | 申请(专利权)人: | 四川大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G08G5/04 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄;廖祥文 |
地址: | 610006 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 线性规划 快速 空管防 冲突 方法 | ||
1.一种基于强化学习与线性规划的快速空管防冲突方法,其特征在于,包含以下步骤:
步骤一,设置扇区内外飞机的数量,并对所有的飞机进行编号,获取所有飞机在开始时刻的坐标以及朝向角;
步骤二,获取所有飞机的动态参数并利用这些参数来构建飞机深度强化学习模型,将所有飞机的坐标和朝向角作为该深度强化学习模型的输入,控制飞机的偏转角作为该深度强化学习模型的输出;
步骤三,使用DDPG算法训练该深度强化学习模型,在训练过程中利用线性规划对神经网络的输出进行选择,优化输出结果,最后经过海量的训练得到训练好的深度神经网络;
步骤四,将所有飞机的坐标和朝向角作为训练好的深度神经网络的输入,得到控制飞机的偏转角度;
步骤五,根据步骤四中所得偏转角,控制飞机按照偏转后的方向继续飞行,更新当前时刻控制飞机的坐标以及朝向角,根据当前时刻所有飞机的坐标和朝向角,利用训练好的深度神经网络判断控制飞机是否可以进行第二次偏转,如果可以进行第二次偏转则偏转到达目的地,否则继续更新所有飞机的坐标及朝向角;
所述步骤二具体包含以下内容:
根据飞机的飞行速度、飞机的最大偏转角和最小偏转角以及飞机的数量,获取飞机速度的约束集和偏转方向的约束集; 将每架飞机的信息规则化为一个二元组,该二元组包含的信息为:飞机编号、飞机状态;其中飞机状态又分为飞机的坐标和朝向角; 搭建DDPG算法中两对结构相同但参数不同的神经网络:策略网络μ(s|wμ)以及它的目标网络μ′(s|wμ′),价值网络Q(s,a|wQ)以及它的目标网络Q′(s,a|wQ′); 策略网络μ(s|wμ)用于计算当前状态s下所采用的动作a,动作a表示为控制飞机偏转的角度,价值网络Q(s,a|wQ)是用来计算在状态s下采取动作a的Q值,并用这个Q值来更新策略网络的参数wμ;神经网络的输入层为飞机的坐标信息以及朝向角,即st=(xi,yi,αi),i=1,2,3,...,n,其中xi,yi,αi分别为飞机在二维坐标系中的坐标及朝向角,n为扇区内外飞机的数量;神经网络的输出为当前状态s下所采用的动作a;飞机的偏转角度Δα∈[-β,β],其中-β,β分别为飞机偏转角度的最小值与最大值;
所述步骤三具体包含以下内容:
对神经网络输出的偏转角度应当满足以下八个条件之一:
1)qa/b≥0,qb/a≥0,qa/b≥qb/a
2)qa/b≥0,qb/a≥0,qa/b≤qb/a,
3)qa/b≥0,qb/a≤0,qa/b≥-qb/a
4)qa/b≥0,qb/a≤0,qa/b≤-qb/a,
5)qa/b≤0,qb/a≥0,-qa/b≥qb/a
6)qa/b≤0,qb/a≥0,-qa/b≤qb/a,
7)qa/b≤0,qb/a≤0,-qa/b≥-qb/a
8)qa/b≤0,qb/a≤0,-qa/b≤-qb/a,
其中,qa/b是飞机a与飞机b的相对航向角,qb/a是飞机b与飞机a的相对航向角,其定义为:
qa/b=θa-ψa/b+2πsgn(ψa/b)Tab
qb/a=θb-ψb/a+2πsgn(ψb/a)Tba
这里的ψa/b是飞机a与飞机b之间的连线与横坐标轴之间的夹角,θa、θb是飞机a、b的朝向角,Tab和Tba是只取0或1的变量,目的是控制qa/b与qb/a的取值范围在[-π,π]之间,θn是飞机a与飞机b之间的最小安全角度,其定义为:
其中,r是飞机的安全半径,D为飞机a与飞机b距离;
其中对深度神经网络的训练包括以下步骤:
01)采集开始时刻所有飞机的坐标以及朝向角信息st=(xi,yi,αi),i=1,2,3,...,n,其中n为飞机的数量;数据的储存形式为[x1,y1,α1,x2,y2,α2.........xn,yn,αn];
02)把当前状态st,即st=(xi,yi,αi),i=1,2,3,...,n,作为策略神经网络μ(s|wμ)的输入,计算在当前状态st下所采取的动作at,即偏转角度,再运用上述线性规划的方法来判断该动作at是否满足不冲突的条件,若满足不冲突的条件,则将线性规划所得值与神经网络所得值相减后用Sigmoid函数作归一化处理,作为采取该动作后的回报值rt前的系数,然后观察得到的下一个状态st+1,并按时间步长更新所有飞机的坐标及朝向角,并用策略神经网络μ(s|wμ)判断是否可进行第二次偏转,如果可以偏转则偏转到达目的地,若不能偏转则继续按时间步长更新坐标及朝向角信息,回报值rt=|Δα1|+|Δα2|,其中Δα1、Δα2是控制飞机的第一次偏转角与第二偏转角;若不满足不冲突的条件,则获得采用该动作下的回报值rt,然后观察得到的下一个状态st+1,然后把(st,at,rt,st+1)存储下来,作为经验回放的数据;
03)从存储下来的数据里随机抽取一定数量的样本,表示为(si,ai,ri,si+1),进行小批量的学习; 计算yi=ri+γQ′(si+1,μ′(si+1|wμ′)|wQ′),其中wμ′、wQ′分别代表了目标网络的权重,γ代表折扣因子;根据最小损失函数来更新评价网络的权重wQ;
04)通过梯度来更新策略网络的权重wμ;
05)通过wQ′←τwQ+(1-τ)wQ′与wμ′←τwμ+(1-τ)wμ′更新目标网络的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011040999.4/1.html,转载请声明来源钻瓜专利网。