[发明专利]一种基于强化学习与线性规划的快速空管防冲突方法有效

申请号：	202011040999.4	申请日：	2020-09-28
公开（公告）号：	CN111882047B	公开（公告）日：	2021-01-15
发明（设计）人：	李辉;文瀚;王壮	申请（专利权）人：	四川大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G08G5/04
代理公司：	成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304	代理人：	何健雄;廖祥文
地址：	610006 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习线性规划快速空管防冲突方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习与线性规划的快速空管防冲突方法，其特征在于，包含以下步骤：

步骤一，设置扇区内外飞机的数量，并对所有的飞机进行编号，获取所有飞机在开始时刻的坐标以及朝向角；

步骤二，获取所有飞机的动态参数并利用这些参数来构建飞机深度强化学习模型，将所有飞机的坐标和朝向角作为该深度强化学习模型的输入，控制飞机的偏转角作为该深度强化学习模型的输出；

步骤三，使用DDPG算法训练该深度强化学习模型，在训练过程中利用线性规划对神经网络的输出进行选择，优化输出结果，最后经过海量的训练得到训练好的深度神经网络；

步骤四，将所有飞机的坐标和朝向角作为训练好的深度神经网络的输入，得到控制飞机的偏转角度；

步骤五，根据步骤四中所得偏转角，控制飞机按照偏转后的方向继续飞行，更新当前时刻控制飞机的坐标以及朝向角，根据当前时刻所有飞机的坐标和朝向角，利用训练好的深度神经网络判断控制飞机是否可以进行第二次偏转，如果可以进行第二次偏转则偏转到达目的地，否则继续更新所有飞机的坐标及朝向角;

所述步骤二具体包含以下内容：

根据飞机的飞行速度、飞机的最大偏转角和最小偏转角以及飞机的数量，获取飞机速度的约束集和偏转方向的约束集; 将每架飞机的信息规则化为一个二元组，该二元组包含的信息为：飞机编号、飞机状态；其中飞机状态又分为飞机的坐标和朝向角; 搭建DDPG算法中两对结构相同但参数不同的神经网络：策略网络μ(s|w^μ)以及它的目标网络μ′(s|w^μ′)，价值网络Q(s，a|w^Q)以及它的目标网络Q′(s，a|w^Q′); 策略网络μ(s|w^μ)用于计算当前状态s下所采用的动作a，动作a表示为控制飞机偏转的角度，价值网络Q(s，a|w^Q)是用来计算在状态s下采取动作a的Q值，并用这个Q值来更新策略网络的参数w^μ；神经网络的输入层为飞机的坐标信息以及朝向角，即s_t＝(x_i，y_i，α_i)，i＝1，2，3，...，n，其中x_i，y_i，α_i分别为飞机在二维坐标系中的坐标及朝向角，n为扇区内外飞机的数量；神经网络的输出为当前状态s下所采用的动作a；飞机的偏转角度Δα∈[-β，β]，其中-β，β分别为飞机偏转角度的最小值与最大值;

所述步骤三具体包含以下内容：

对神经网络输出的偏转角度应当满足以下八个条件之一：

1)q_a/b≥0，q_b/a≥0，q_a/b≥q_b/a

2)q_a/b≥0，q_b/a≥0，q_a/b≤q_b/a，

3)q_a/b≥0，q_b/a≤0，q_a/b≥-q_b/a

4)q_a/b≥0，q_b/a≤0，q_a/b≤-q_b/a，

5)q_a/b≤0，q_b/a≥0，-q_a/b≥q_b/a

6)q_a/b≤0，q_b/a≥0，-q_a/b≤q_b/a，

7)q_a/b≤0，q_b/a≤0，-q_a/b≥-q_b/a

8)q_a/b≤0，q_b/a≤0，-q_a/b≤-q_b/a，

其中，q_a/b是飞机a与飞机b的相对航向角，q_b/a是飞机b与飞机a的相对航向角，其定义为：

q_a/b＝θ_a-ψ_a/b+2πsgn(ψ_a/b)T_ab

q_b/a＝θ_b-ψ_b/a+2πsgn(ψ_b/a)T_ba

这里的ψ_a/b是飞机a与飞机b之间的连线与横坐标轴之间的夹角，θ_a、θ_b是飞机a、b的朝向角，T_ab和T_ba是只取0或1的变量，目的是控制q_a/b与q_b/a的取值范围在[-π，π]之间，θ_n是飞机a与飞机b之间的最小安全角度，其定义为：

其中，r是飞机的安全半径，D为飞机a与飞机b距离;

其中对深度神经网络的训练包括以下步骤：

01)采集开始时刻所有飞机的坐标以及朝向角信息s_t＝(x_i，y_i，α_i)，i＝1，2，3，...，n，其中n为飞机的数量；数据的储存形式为[x₁，y₁，α₁，x₂，y₂，α₂.........x_n，y_n，α_n]；

02)把当前状态s_t，即s_t＝(x_i，y_i，α_i)，i＝1，2，3，...，n，作为策略神经网络μ(s|w^μ)的输入，计算在当前状态s_t下所采取的动作a_t，即偏转角度，再运用上述线性规划的方法来判断该动作a_t是否满足不冲突的条件，若满足不冲突的条件，则将线性规划所得值与神经网络所得值相减后用Sigmoid函数作归一化处理，作为采取该动作后的回报值r_t前的系数，然后观察得到的下一个状态s_t+1，并按时间步长更新所有飞机的坐标及朝向角，并用策略神经网络μ(s|w^μ)判断是否可进行第二次偏转，如果可以偏转则偏转到达目的地，若不能偏转则继续按时间步长更新坐标及朝向角信息，回报值r_t＝|Δα₁|+|Δα₂|，其中Δα₁、Δα₂是控制飞机的第一次偏转角与第二偏转角；若不满足不冲突的条件，则获得采用该动作下的回报值r_t，然后观察得到的下一个状态s_t+1，然后把(s_t，a_t，r_t，s_t+1)存储下来，作为经验回放的数据；

03)从存储下来的数据里随机抽取一定数量的样本，表示为(s_i，a_i，r_i，s_i+1)，进行小批量的学习; 计算y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|w^μ′)|w^Q′)，其中w^μ′、w^Q′分别代表了目标网络的权重，γ代表折扣因子；根据最小损失函数来更新评价网络的权重w^Q；

04)通过梯度来更新策略网络的权重w^μ；

05)通过w^Q′←τw^Q+(1-τ)w^Q′与w^μ′←τw^μ+(1-τ)w^μ′更新目标网络的权重。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川大学，未经四川大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011040999.4/1.html，转载请声明来源钻瓜专利网。

上一篇：基于最大熵的数字接收机自动增益控制方法
下一篇：聚碳酸酯纯净水桶吹塑成型系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习与线性规划的快速空管防冲突方法有效

专利文献下载