[发明专利]一种基于深度强化学习的多星自主任务分配方法在审
申请号: | 202011140091.0 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112270435A | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 王云鹏;袁利;朱琦;张聪;张斯航;郝策;孙栋 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06;G06N3/04;G06N3/08 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 高志瑞 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 自主 任务 分配 方法 | ||
本发明公开了一种基于深度强化学习的多星自主任务分配方法,该方法包括如下步骤:步骤一:将地球轨道上由N个卫星组成的星群构建为主从结构星群步骤二:根据步骤一中的主从结构星群,地面建立深度强化学习多星任务自主分配模型;步骤三:利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练;步骤四:将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。本发明使得任务分配求解过程的复杂度就降低到了多项式级,大幅提高了计算效率,适应星上计算能力有限的环境。
技术领域
本发明属于星群自主星上任务分配技术领域,尤其涉及一种基于深度强化学习的多星自主任务分配方法。
背景技术
面对未来复杂多变的任务环境,单个卫星无法保证任务执行的连续性和完整性,星群是未来执行任务的基础单位。星群同时接收多个任务,多星任务分配就是要找出一种最优的分配方案。目前卫星任务分配技术大多依赖于地面管控系统,地面管控系统接收任务后,在地面完成任务分配,然后再将分配好的任务上传到卫星执行。由于星地之间只能通过有限的地面测控站进行通信,而且还存在较长的通信时延,地面无法完全掌握星群系统的实时状态,因此传统的地面任务分配策略无法保证分配方案的最优性。而且地面分配星上执行的方法也无法保证对突发事件任务的快速响应。
卫星通过星间通讯可以快速全面掌握星群实时状态,星上分配可以保证分配方案的最优性的同时保证快速响应。最优分配方案,应当使整个系统在执行任务过程姿态机动最小,能量消耗最少,这是一个典型的组合优化问题。当问题规模较小时可以采用枚举遍历的方法,找出最优方案。当规模变大时常用法方法包括遗传算法、模拟退火算法、蚁群算法和K值聚类等方法。依靠地面设备强大的计算能力,这些方法能够找到较为满意的优化解,但受限于卫星星载计算机有限的计算能力,这些方法无法直接移植到卫星上进行应用。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种基于深度强化学习的多星自主任务分配方法,利用深度强化学习方法将繁杂的计算被留在了地面训练环节,利用地面计算机强大的计算能力,可以训练得到成熟稳定的深度强化学习多星自主任务分配模型,并利用该模型,任务分配求解过程的复杂度就降低到了多项式级,大幅提高了计算效率,适应星上计算能力有限的环境。
本发明目的通过以下技术方案予以实现:一种基于深度强化学习的多星自主任务分配方法,所述方法包括如下步骤:步骤一:将地球轨道上由N个卫星组成的星群构建为主从结构星群,其中,主星负责接收任务和分配任务,从星接收主星分配的任务并负责执行;步骤二:根据步骤一中的主从结构星群,地面建立深度强化学习多星任务自主分配模型,其中,深度强化学习多星任务自主分配模型包括5层神经网络;其中,第一层为输入层,第二层和第三层均为卷积层,第四层和第五层均为全连接层,最后一层是输出层;步骤三:利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练;步骤四:将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。
上述基于深度强化学习的多星自主任务分配方法中,在步骤一中,主从结构星群的特征为:主从结构星群中卫星分为主星和从星,主星通过星间通讯链路与其他卫星快速通信,主星通过星间通讯链路收集从星状态,发布任务;从星通过星间通信链路反馈自身状态,接收任务;主星接收任务集合为其中MMmax,Mmax为主星一次可分配任务数的上限;其中,m1为待分配任务1,m2为待分配任务2,mM为待分配任务M,M为待分配任务数量;所有任务存在时序关系,m1最先执行,mM最后执行;所有任务要求在T时间内执行完毕,T被分为L个最小时间窗口T=T1∪T2∪…∪TL,每个最小时间窗口只能执行一个任务,而且每一任务都在最小时间窗口内执行完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011140091.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理