[发明专利]星地网络中基于矩阵-向量乘法任务的编码计算分配方法有效
申请号: | 202210133505.X | 申请日: | 2022-02-14 |
公开(公告)号: | CN114614878B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 顾术实;逄博;张智凯;郭云开;张钦宇 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04W28/16;H04W28/20 |
代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 朱丽萍 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 基于 矩阵 向量 乘法 任务 编码 计算 分配 方法 | ||
1.一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法,其特征在于,所述方法包括以下步骤:
构建星地网络系统,所述星地网络系统包括地面基站、接入卫星和多个工作卫星,所述地面基站对接收到的矩阵-向量乘法任务,根据资源调度策略选择在地面基站执行计算或卸载至卫星网络进行计算,所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算;
所述资源调度策略包括:
将资源调度策略建立成以最小化系统折中开销为目标的优化问题P1,优化问题P1的约束条件包括:系统多个开销折衷系数约束,接入卫星与工作卫星建立临时星间链路的概率约束,工作卫星总计算功率不能超过阈值;接入卫星总带宽不能超过阈值;卸载位置只在地面基站和工作卫星;
根据资源调度与任务分配大小形成星地网络系统动作空间;
根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法,通过任务调度方法求解优化问题P1,获取最优的任务分配量、分配的功率、传输带宽;
其中,所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算,具体步骤包括:对所述矩阵按照编码规则进行无速率编码,编码后所述矩阵行数由mt变为αmt的LT码,其中α为LT码的编码参数,根据所述编码计算分配的决策将编码后的矩阵分为子矩阵传输至各工作卫星与向量进行乘法计算;
所述以最小化系统折中开销为目标的优化问题P1具体表达式为:
s.t.C1:ω1+ω2+ω3=1
0<ω1,ω2,ω3<1
C2:0<β1,...,βs<1
C3:
C4:
C5:
其中,为系统成本函数,ω1、ω2、ω3为系统开销折衷系数,Ti为系统在i时刻任务矩阵整体处理时延开销,Ei为系统处理总功耗,δ为任务失败开销系数,t0表示时延开销阈值,为指示函数,若A条件成立,则若{A}为空集合,则C1表示折衷系数和为1,C2表示接入卫星与工作卫星建立临时星间链路的概率,C3表示工作卫星总计算功率不能超过阈值Ρcom,C4表示卫星总带宽不能超过阈值B0,C5表示卸载位置只有地面基站与工作卫星,ms,i表示地面基地和工作卫星在i时刻任务矩阵中处理的子矩阵行数,s表示工作卫星个数,ni表示i时刻任务矩阵的列数,ρi-k,s表示工作卫星s处理第i-k个任务分配的功率;
所述星地网络系统动作空间的具体表达式为:
其中,r表示地面基站、接入卫星和多个工作卫星三种工作节点各自并行处理任务的最大数量,m1,0~mr,0表示地面基地处理的任务1~r的子矩阵行数,ρ1,0~ρr,0表示地面基地处理任务1~r分配的功率,m1,s~mr,s表示工作卫星处理的任务1~r的子矩阵行数,ρ1,s~ρr,s表示工作卫星处理任务1~r分配的功率,B1,s~Br,s表示接入卫星分配任务1~r的传输带宽;
所述根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法包括建立DDPG决策网络,所述DDPG决策网络包括两个演说家网络Actor和两个评论家网络Critic,其中一个演说家网络Actor和一个评论家网络Critic组成原始网络,另一个演说家网络Actor和另一个评论家网络Critic组成目标网络,所述原始网络通过与星地网络系统进行实时交互,实现所述原始网络参数训练,并在固定间隔时间内,通过软更新的方法将所述原始网络参数更新至所述目标网络中;
所述基于DDPG算法的任务调度方法,具体实现步骤包括:
步骤1、初始化原始网络中的评论家网络critic输出qw(s,a)和演说家网络actor输出μθ(s);初始化目标网络中评论家网络critic输出q′(s,a)和演说家网络actor输出μθ′(s);初始化执行动作a,初始化经验回放缓存,初始化状态s0,设置经验回放池数据样本个数K;
步骤2、将时间分为T个间隙,在每个时间间隙内,执行:
步骤21、通过原始网络中的评论家网络Critic得到动作at=μθ(st)+Νt,其中,μθ表示编码计算分配的决策,st表示星地网络系统当前状态,Νt为高斯噪声,执行动作at=μθ(st)+Νt,获取动作奖励rt和下一时刻的状态st+1;
步骤22、将数据{at,st,rt,st+1}缓存至经验回放池;
步骤23、从经验回放池中提取K个经验数据{ai,si,ri,si+1};
步骤24、在目标网络中的评论家网络critic中计算yi=ri+γq'(si+1,μ'(si+1|θμ')|θq'),其中γ为折扣因子,q'(si+1,μ'(si+1|θμ')|θq')表示在状态si+1和动作ai+1=μ'(si+1|θμ')条件下的目标值网络输出的Q值,μ'(si+1|θμ')表示目标网络中的演说家网络actor输出结果,θμ'、θq'分别表示目标网络中演说家网络actor和评论家网络critic的参数;
步骤25、计算最小化Loss函数其中qw(si,ai|θq)表示原始网络中的评论家网络critic的输出结果,根据最小化Loss函数更新原始网络中的评论家网络critic参数θq;
步骤26、计算策略梯度
μ(s|θμ)表示原始网络中的演说家网络actor输出结果,根据策略梯度更新原始网络中的演说家网络actor参数
步骤27、根据θq和θμ定期更新目标网络中评论家网络critic参数和演说家网络actor参数θq'=ζθq+(1-ζ)θq',θμ'=ζθμ+(1-ζ)θμ',其中ζ表示更新率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210133505.X/1.html,转载请声明来源钻瓜专利网。