[发明专利]一种基于深度Q学习的测控资源调度方法有效
申请号: | 202010609039.9 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111767991B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 郭茂耘;武艺;唐奇;梁皓星 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N3/0464;G06N3/048;G06N3/084;G06Q10/0631;H04B7/185 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 测控 资源 调度 方法 | ||
1.一种基于深度Q学习的测控资源调度方法,其特征在于:该方法包括以下步骤:
S1:对复杂测控场景的描述;
S2:测控调度性能评价指标设计;
S3:测控资源调度方案形成;
S4:DQN算法在测控资源调度方案生成中的应用;
S5:基于DQN的测控资源调度方法实施;
所述步骤S1具体为:
(1)测控场景中实体的描述
从天地一体化测控系统的测控资源的角度出发,对测控场景中的要素进行基于可见时间窗口的描述;
天地一体化测控资源描述为:
RESOURCE={S,TYPE,TS,DS,L,LMAX}
其中,S为天地一体化测控资源的集合,在其中对多类多个测控资源进行统一化编号,S={s1,s2,...sj,...sM};j为测控资源的编号,M为所有测控资源的总的数量;
TYPE表征测控资源的种类,TYPE为1则该测控资源为天基测控资源,TYPE为0则该资源为地基测控资源;
TS表征对于每个测控资源的空闲时间窗口,即当前可用于测控的时间窗口;
TS={TS1,TS2,...TSj,...TSM}
={[tb1(s1),te1(s1)],[tb2(s1),te2(s1)],...,[tb1(s2),te1(s2)],[tb2(s2),te2(s2)].....,....[tb1(sM),te1(sM)]}
TSj表征第j个测控资源的所有可用时间窗口,即空闲时间窗口,tb1(sj)与te1(sj),分别表示第j个测控资源的第1个可见时间窗口的起始时间与终止时间,可见窗口的次序按照时间顺序标记,以此类推;
DS表征测控资源每个空闲时间窗口的长度
表征第j个测控资源的第k个空闲时间窗口的长度;
LSj表示所有的中低轨卫星对于单个测控资源的占用表示测控任务i对于单个测控资源j的负载占用情况,其中i表征测控任务的次序,n为测控任务的总数目;
L表征所有中低轨卫星对于天地一体化测控资源的占用;具体如下:
LSj表示所有的测控任务对于单个测控资源j的负载占用情况;
LMAX={LMAX1,LMAX2,...LMAXj,...LMAXM}
LMAXj表示测控资源j最多可以接收的测控任务负载,即测控资源的最大负载;
从测控任务的角度出发,对测控场景中的要素进行基于可见时间窗口的描述;测控任务描述为:
其中,T为所有测控任务的编号集合,T={T1,T2,...Ti...Tn};
Ti表示测控任务的编号;在这个公式以及以下公式中,i为测控任务的次序,n为测控任务的总的个数;
Sat表征测控任务来源即其对应的任务卫星,Sat={Sat1,Sat2,…Sato}
Sati表示次序为i的测控任务的来源卫星;
P为测控任务的优先级,P={P1,P2,...Pi...Pn},Pi表示次序为i的测控任务的优先级;
D为各测控任务所对应的最短测控时间D={d1,d2,...di...dn);di表示次序为i的测控任务的最短持续时间;
TA表征测控任务可以测控的时间区间
TA={[t1B,t1E],[t2B,t2E],....[tiB,tiE],...[tnB,tnE]};
[tiB,tiE]表示次序为i的测控任务可以进行测控任务的时间窗口,tiB为测控任务的最早开始时间,tiE为测控任务的最晚结束时间;
TC表征任务的实际测控区间
TC={[t1b,t1e],[t2b,t2e],....[tib,tie],...[tnb,tne]};
[tib,tie]表示次序为i的测控任务实际进行的时间窗口,tib为测控任务调度之后的实际开始时间,tie为测控任务实际调度之后的实际结束时间;
Toi描述为各个任务所对应的可见弧段的集合
表示对于次序为i的测控任务,第m个测控资源对其的第k个可见时间窗口,具体表示为[tb1(sim),te1(sim)],tb1(sim)为该可见窗口的开始时间,te1(sim)为该可见窗口的结束时间;
(2)测控状态设计
测控状态s的设计是依据测控资源的利用情况即在时间空间可视性的基础上,对测控系统中的不同的可视状态/可用状态利用可见时间窗口来表达;对于一个特定的测控场景,用能够表征每个测控资源状态的0-1矩阵来作为该测控场景的状态,其大小由测控资源个数与测控时间窗口的划分尺度决定;对于每一个测控资源,按照具体需求确定划分尺度对其每日的工作时间进行划分,并对划分后的测控设备时间区间进行可视状态的标记,其中可视/可用单位时间所对应矩阵状态设置为0,不可视/不可用单位时间所对应矩阵状态设置为1,确定在某一确定时刻的测控设备的使用情况即测控状态;
(3)测控动作的设计
测控动作的设计采用层层递进的决策思路,依次决定是否接受测控任务,接受测控任务的测控资源,接受任务的测控资源具体用于该任务的测控时间区间,次序为i的测控动作设计为:
Xi=(ai,type,xij,yjk,tib)
其中,ai表征是否接受次序为i的测控任务,type表示接受次序为i的测控任务的测控资源的类型,xij表征接受次序为i的测控任务的测控资源编号,yjk表示用资源j的第k个可见时间窗口执行测控任务,tib表征次序为i的测控任务的实际开始时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010609039.9/1.html,转载请声明来源钻瓜专利网。