[发明专利]基于强化学习和迁移学习的飞行器全自动气动优化方法有效
申请号: | 201811217192.6 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109614631B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 闫星辉;朱纪洪;匡敏驰;王吴凡;史恒 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/27;G06F30/28 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于强化学习和迁移学习的飞行器全自动气动优化方法,用于解决现有气动优化方法存在的容易陷入局部最优或收敛速度缓慢的问题,同时该优化方法在最后的高精度优化阶段将人工干预排除在外,进一步提高了优化效率。技术方案是首先分别建立基于半经验估算和高精度流体仿真的强化学习环境,然后构建强化学习神经网络、设置奖励函数,利用强化学习的全局寻优能力,在网络训练的过程中从半经验估算方法中提取优化经验并储存于网络参数中,然后构建另一个强化学习神经网络,并使用迁移学习将提取的优化经验迁移到该网络,再将其运用到基于高精度流体仿真的气动优化中,最后通过训练该网络获取气动性能优异的高精度设计参数。相对于背景技术方法,本发明提高了收敛速度,同时具备强大的全局寻优能力,对高精度气动优化具有很大的工程价值。 | ||
搜索关键词: | 基于 强化 学习 迁移 飞行器 全自动 气动 优化 方法 | ||
【主权项】:
1.一种基于强化学习和迁移学习的飞行器全自动气动优化方法,其特征在于包括以下步骤:步骤一,建立飞行器气动外形的参数化方法,选取参数化后的参数作为设计变量,参数化方法为根据给定的优化问题,选取能确定飞行器气动外形的几何参数,以飞行器翼面优化为例,包括翼展、翼尖弦长、翼根弦长、翼面前缘后掠角度等;步骤二,分别建立基于半经验估算方法和高精度流体仿真的强化学习环境,基本方法为通过批处理命令的方法将设计参数输入到环境,再分别通过半经验估算方法和高精度流体仿真计算得到气动性能指标并输出,其中,由于高精度流体仿真以有限元方法为基础,通过计算Navier‑Stokes方程得到结果,所以基于高精度流体仿真的环境需要包含以基准3D模型为基础的计算网格,并以网格变形技术为支撑,实现计算网格随设计参数变化的自适应调整,避免了重复建模、重复网格划分的弊端,为全自动优化奠定了基础;步骤三,建立用于优化经验提取的强化学习神经网络,整个网络的输入为设计变量取值,输出为设计变量的变化量,整个网络由价值估计网络和策略网络构成,价值网络根据长期收益来评判策略网络输出的策略,并使用以下策略梯度进行网络参数的更新:其中J为期望回报之和,θμ为“表演者”网络的参数,θQ为“评价者”网络的参数,E为期望值计算,a、s为强化学习中的动作和状态,π为动作选择函数,Q为动作评价函数。策略网络用于输出给定设计变量下对应的变化量,使用以下基于经验回放的损失函数更新网络参数:其中,N为从经验池中选取的样本数量,γ为未来奖励的折扣因子,Q′为上一时刻的评价函数;步骤四,根据给定气动优化问题的目标函数和约束条件设置奖励函数,并以此为基础在半经验估算强化学习环境中训练步骤三中建立的网络,利用强化学习本身强大的全局寻优能力获取最优的设计变量值,并在训练过程中从半经验估算方法中提取针对给定优化问题的优化经验,并以神经网络参数的形式存储在网络中;步骤五,建立用于最终优化的强化学习神经网络,网络结构和配置与步骤三中的网络保持一致,并通过迁移学习的方法将已提取的优化经验转移到该网络中,即将步骤四中训练完毕的神经网络参数中,挑选出部分网络层参数复制到新建立的强化学习网络;步骤六,使用与步骤四相同的奖励函数,在高精度流体仿真强化学习环境中训练步骤五中建立的网络,实现步骤四中所提取的优化经验的再利用,直到训练结果收敛得到性能最优的设计变量值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811217192.6/,转载请声明来源钻瓜专利网。