[发明专利]卫星容量分配方法、装置和电子设备有效
申请号: | 202010276666.5 | 申请日: | 2020-04-09 |
公开(公告)号: | CN111491382B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 姜春晓;朱向明;匡麟玲 | 申请(专利权)人: | 清华大学;上海清申科技发展有限公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;H04W72/04;H04W84/06;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 董艳芳 |
地址: | 100000*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卫星 容量 分配 方法 装置 电子设备 | ||
本发明提供了一种卫星容量分配方法、装置和电子设备,涉及卫星资源分配技术领域,该方法首先获取卫星在设定时间段内的资源信息;其中,设定时间段内的不同时刻所对应的资源信息不同;然后将设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中,结合卫星容量分配模型中的惩罚因子和各个时刻的资源信息进行计算,得到效益值最大时的卫星容量分配策略;最后通过卫星容量分配策略对卫星容量进行容量分配。该方法利用通过惩罚因子对在可视时间内未完成传输需求容量时进行效益惩罚,通过卫星容量分配模型自动学习避免惩罚的最优容量分配策略,从而优化卫星系统的长期效益。
技术领域
本发明涉及卫星资源分配技术领域,尤其是涉及一种卫星容量分配方法、装置和电子设备。
背景技术
现有的卫星通讯过程中,随着卫星的周期运动,用户仅在卫星可视时可与卫星数据传输,因此卫星在用户间分配容量时需要考虑不同用户的可视时间。由于卫星在多用户间的容量分配问题为长期收益最优问题,现有技术中并不能单独对每个时间进行最优容量分配,需要考虑时序之间的耦合关系,而时序耦合的容量分配问题具有较高的复杂度,传统计算方法难以直接求解。
随着机器学习相关方法应用于卫星资源分配领域后,是的卫星容量分配更加合理,但现有的机器学习相关模型只考虑短期收益,缺少相关长期受益的考虑方式。
发明内容
有鉴于此,本发明的目的在于提供一种卫星容量分配方法、装置和电子设备,通过惩罚因子对在可视时间内未完成传输需求容量时进行效益惩罚,并使用强化学习模型能够自动学习避免惩罚的最优容量分配策略,从而优化系统的长期效益。
第一方面,本发明实施例提供了一种卫星容量分配方法,该方法包括:
获取卫星在设定时间段内的资源信息;其中,设定时间段内的不同时刻所对应的资源信息不同;
将设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中,结合卫星容量分配模型中的惩罚因子和各个时刻的资源信息进行计算,得到效益值最大时的卫星容量分配策略;
通过卫星容量分配策略对卫星容量进行容量分配。
在一些实施方式中,上述方法还包括:
在结合卫星容量分配模型中的惩罚因子和每个时刻的资源信息进行计算,得到效益值最大时的卫星容量分配策略之后,根据已完成分配的卫星容量更新当前的资源信息。
在一些实施方式中,上述卫星容量分配模型的构建过程,包括以下步骤:
初始化强化学习模型以及Q矩阵;Q矩阵的列表示卫星状态;Q矩阵的行表示卫星状态下的分配策略;Q矩阵中元素的数值表示卫星状态下产生的效益;
根据初始化的Q矩阵以及惩罚因子得到卫星容量的分配策略;
根据分配策略以及待训练的卫星资源信息对强化学习模型进行训练,将完成训练的强化学习模型作为卫星容量分配模型。
在一些实施方式中,上述强化学习模型的初始化参数,包括:学习周期、时间参数、系统状态参数以及学习参数;
学习周期的初始化结果为1;
时间参数的初始化结果为设定时间段的起始时刻;
系统状态参数的初始化结果为设定时间段的起始时刻时的系统状态;
学习参数的初始化结果包括决策参数、未传输容量惩罚因子、学习速率参数以及长期效益参数;
Q矩阵的初始化结果为零矩阵。
在一些实施方式中,上述根据初始化的Q矩阵以及惩罚因子得到卫星的分配策略的步骤,包括:
根据系统状态参数,确定Q矩阵在系统状态下的所有决策对应的行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;上海清申科技发展有限公司,未经清华大学;上海清申科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010276666.5/2.html,转载请声明来源钻瓜专利网。