[发明专利]一种基于仿真系统的强化学习方法、装置和系统在审
申请号: | 202011195306.9 | 申请日: | 2020-10-30 |
公开(公告)号: | CN113759751A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 赵红杏 | 申请(专利权)人: | 北京京东乾石科技有限公司 |
主分类号: | G05B17/02 | 分类号: | G05B17/02 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;王安娜 |
地址: | 100176 北京市北京经济技术开*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 仿真 系统 强化 学习方法 装置 | ||
本发明公开了一种基于仿真系统的强化学习方法、装置和系统,涉及飞行器仿真技术领域。该方法的一具体实施方式包括:接收仿真系统传输的仿真数据;根据所述仿真数据并依据控制器的学习策略确定待执行的行动;其中,所述行动包括对飞行器动力系统的行动和对舵机的行动;将所述行动传输至所述仿真系统,以使所述仿真系统执行所述行动,从而控制飞行器在所述仿真系统中飞行。该实施方式能够解决无法保证控制器在众多环境状态下的鲁棒性的技术问题。
技术领域
本发明涉及飞行器仿真技术领域,尤其涉及一种基于仿真系统的强化学习方法、装置和系统。
背景技术
不同于小型末端物流无人飞行器,大型无人飞行器的起飞重量、飞行高度和续航能力都有了极大的提升,运行过程中地形及气象环境多变,运行过程中的不确定性较大;同时,大型无人飞行器系统复杂,造价昂贵,制造成本极高,所以大型无人飞行器对可靠性有很高的要求;另外,运行环境复杂多变以及系统复杂度较高,导致大型无人飞行器飞行时空域和政策上都有很大的限制;并且大型无人飞行器的试飞时间成本也较高,在研制阶段,一般进行试飞的准备时间为飞行时间的2-5倍。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前通过实际试飞来设计控制器,需要在很多环境状态下设计相应的控制器并验证控制器的鲁棒性和可靠性,这些设计和验证过程费时费力,同时需要设计人员具有很强的专业能力,设计过程的时间成本和人力成本都较大,而且控制器只能在设计的环境状态下满足鲁棒性要求,无法保证在众多环境状态下的鲁棒性。
发明内容
有鉴于此,本发明实施例提供一种基于仿真系统的强化学习方法、装置和系统,以解决无法保证控制器在众多环境状态下的鲁棒性的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于仿真系统的强化学习方法,包括:
接收仿真系统传输的仿真数据;
根据所述仿真数据并依据控制器的学习策略确定待执行的行动;其中,所述行动包括对飞行器动力系统的行动和/或对舵机的行动;
将所述行动传输至所述仿真系统,以使所述仿真系统执行所述行动,从而控制飞行器在所述仿真系统中飞行。
可选地,将所述行动传输至所述仿真系统之后,还包括:
接收所述仿真系统传输的执行所述行动后的仿真数据;
根据执行所述行动后的仿真数据,确定反馈值;
根据所述反馈值调整所述控制器的学习策略,以使所述控制器获得最大的反馈值。
可选地,所述仿真数据包括飞行器结构仿真、飞行器动力学仿真、三维环境仿真和大气环境仿真。
可选地,接收仿真系统传输的仿真数据之前,还包括:
建立飞行器结构模型,根据所述飞行器结构模型建立飞行器动力学模型;
通过所述仿真系统分别对所述飞行器结构模型和所述飞行器动力学模型进行仿真,从而得到飞行器结构仿真和飞行器动力学仿真。
可选地,所述仿真系统包括Gazebo和simulink;
simulink用于根据所述飞行器结构模型建立飞行器动力学模型,并对所述飞行器结构模型和所述飞行器动力学模型进行仿真,从而得到飞行器结构仿真和飞行器动力学仿真;
Gazebo用于对三维环境和大气环境进行仿真,从而得到三维环境仿真和大气环境仿真。
可选地,建立飞行器结构模型,包括:
对真机进行风洞试验,得到初始气动数据,从而建立初始飞行器结构模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东乾石科技有限公司,未经北京京东乾石科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011195306.9/2.html,转载请声明来源钻瓜专利网。