[发明专利]基于深度强化学习的变电站监测系统及其资源调度方法有效
申请号: | 202011478035.8 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112637806B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 李奇越;朱亚东;丁津津;高博;孙辉;张峰;汪勋婷;孙伟;李帷韬;邓玉星 | 申请(专利权)人: | 合肥工业大学;国网安徽省电力有限公司电力科学研究院 |
主分类号: | H04W4/38 | 分类号: | H04W4/38;H04W72/04;H04W24/02;H04W24/06 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 变电站 监测 系统 及其 资源 调度 方法 | ||
1.一种基于深度强化学习的变电站监测系统的资源调度方法,是应用于由包含N种不同类型传感器的无线传感器网络节点、深度强化学习智能体、一个电力无线专网基站、一个拥有多个神经网络的边缘设备和一个远程云端所组成的智能电网监测系统中,其特征在于,所述资源调度方法是按如下步骤进行:
步骤一、在所述智能电网监测系统中,将用于采集的传感器编号为{1,2,...,n,...,N},n表示第n种传感器的序号,1≤n≤N;
定义不同神经网络的精度为{Q1,Q2,...,Qa,...,QA},其中,Qa表示第a种神经网络的精度,μmax表示总的计算资源,μa表示精度为Qa的神经网络分得的计算资源,1≤a≤A;
定义QA+1表示远程云端的计算精度;
步骤二、假设一段时间内第n种传感器共传输In个数据包,每个数据包传输Ln位数据且传输周期为Tp,n,计算数据包在延迟限制内成功传输到边缘设备或远程云端的概率;
步骤2.1、利用式(2-1)得到数据包被无错传输的概率P:
式(2-1)中,表示带宽资源,表示无线通信的信道增益,表示信噪比、表示传输速率,其中,时表示选择远程云端传输数据,时表示选择边缘设备传输数据;
对于第n个传感器产生的数据包,传输时间是Tn,φ=Ln/rφ,Ln表示第n个数据包的大小,利用式(2-2)得到数据包无错传输的概率与传输时间的比值,即无线信道的服务速率
利用式(2-3)得到无线传输延迟概率P(tw,n,φ≤Tw,n,φ):
式(2-3)中,表示到第n种传感器传送的数据在无线通信中实际传输的时间,为无线传输的延迟限制,λe,λc分别表示数据传输到边缘设备和云端过程中无线通信的到达率,并有:
式(2-4)中,xn,i表示第n种传感器的第i个数据包是发送给边缘设备处理还是发送给远程云端,xn,i=1表示数据从传感器传输到边缘设备,xn,i=0表示数据从传感器传送到远程云端;
步骤2.2、利用式(2-5)得到第n种传感器在互联网中的传输延迟限制Tc,n的概率函数P(tc,n≤Tc,n):
式(2-4)中,tc,n表示第n种传感器传送的数据在无线网络中实际传输的时间,σ2表示时间tc,n的方差,μ表示时间tc,n的数学期望;
步骤三、建立以计算精度、数据成功到达概率及数据包大小的乘积最大值为目标函数,
根据计算资源、通信资源和设备硬件的限制因素,建立一系列约束条件,从而构建基于深度强化学习的资源分配和调度模型;
步骤3.1、利用式(3-1)构建目标函数:
式(3-1)中,Ln是第n个数据包的大小,yn,i,a表示第n种传感器的第i个数据包是否发送给边缘设备中精度为Qa的神经网络处理;Tn表示第n种传感器的延迟限制;t表示数据在实际传输中的总时间;Pe,a,n(t≤Tn)表示第n种传感器的数据传送给边缘设备中精度为Qa的神经网络处理的无线传输延迟与计算延迟之和小于延时限制的概率,并有:
式(3-2)中,Te,a,n表示第n种传感器传输的数据在精度为Qa的神经网络中的计算延迟;
式(3-1)中,Pc,n(t≤Tn)表示第n种传感器的数据传送给云端时数据到基站的无线传输延迟与基站到云的互联网传输延迟之和小于延时限制的概率,并有:
步骤3.2、利用式(3-4)-式(3-8)构建约束条件:
xn,i∈{0,1} (3-4)
yn,i,a∈{0,1} (3-5)
若xn,i=1,
式(3-4)表示xn,i只能等于0或1,即第n种传感器的第i个数据包只能传送给边缘或者远程云端;
式(3-5)表示yn,i,a只能等于0或1,即第n种传感器的第i个数据包是否传给精度为Qa的神经网络;
式(3-6)表示当数据传输给边缘设备时,必须选择一种精度的神经网络;
式(3-7)表示任意一个神经网络分得的计算资源需小于总资源;
步骤四、采用深度强化学习算法对基于深度强化学习的资源分配和调度模型进行求解,得到最优解,采用最优解所表示的最优资源分配方案将采集的数据传输给无线网络,从而实现资源分配和调度;
步骤4.1、利用式(4-1)得到改写后的目标函数R(τ):
式(4-1)中,Li是第i个数据包的大小,Qi是第i个数据包传输时选择的精度,Pi是第i个数据包传输延迟小于延迟限制的概率;τ表示一种策略;
步骤4.2、基于指针网络训练模型参数:
所述指针网络由编码器和解码器组成,所述编码器和解码器均由LSTM单元组成;
步骤4.2.1、编码阶段,所述编码器每次读取n个数据包中读取一个数据包的输入序列,得到第i个数据包对应的隐状态hi,i=1,...,n,所述输入序列包括互联网延迟和数据包的长度;
步骤4.2.2、解码阶段,第一个LSTM单元的输入是神经网络训练的参数,并输出第1个隐状态x1,从第二个LSTM单元开始,用前一个LSTM单元的输出作为第二个LSTM单元的输入,则第j个LSTM单元输出第j个隐状态xj,j=1,...,n;
步骤4.2.3、根据式(4-2),式(4-3)分别计算第j个LSTM单元对第i个数据包输出的概率分布和第j个解码器分配给第i个数据包的输入序列的权重
式(4-2)中,v是需要学习的参数,Wh是编码阶段的参数,Ws是解码阶段的参数;
步骤4.3、使用策略梯度算法对所述指针网络进行优化:
定义Actor网络和Critic网络的结构与所述指针网络的结构相同,所述Actor网络用于生成动作和环境互动,Critic网络用于评价Actor网络的表现,并指导Actor网络下一阶段的动作;
步骤4.3.1、在Actor网络下,假设策略τ引导智能体经历一个轨迹,即τ=(s1,a1,s2,a2,...,si,ai);其中,si是在第i步时的状态,ai是在第i步时选择的动作;
步骤4.3.2、利用式(4-4)得到所述轨迹在策略τ的引导下出现的概率pθ(τ):
步骤4.3.3、利用式(4-5)求解改写后的目标函数R(τ)的期望J(θ):
J(θ)=∑τR(τ)pθ(τ) (4-5)
式(4-5)中,θ表示Actor网络的参数;
步骤4.3.4、利用式(4-6)建立期望J(θ)的目标函数:
max J(θ)=max∑τR(τ)pθ(τ) (4-6)
步骤4.3.5、利用式(4-7)计算目标函数的梯度
步骤4.3.6、利用式(4-8)得到在当前策略τ下采样N条轨迹后的平均值
式(4-8)中,τi表示采样的第i条轨迹;
步骤4.3.7、利用式(4-9)得到引入一个基准线b后的梯度
步骤4.3.8、利用式(4-10)对梯度进行优化,得到优化后的Actor网络的参数θ′;
式(4-10)中,α是Actor网络的学习率,←表示参数θ更新为θ';
步骤4.3.9、利用式(4-11)得到均方差C(θc);
式(4-11)中,θc为所述Critic网络的参数,为所述Critic网络的输出;
步骤4.3.10、利用式(4-12)对均方差C(θc)的梯度进行训练,得到训练后的Critic网络的参数θ′c;
式(4-12)中,αc是Actor网络的学习率;
步骤4.3.11、将优化后的Actor网络的参数θ′和训练后的Critic网络的参数θ′c带入步骤4.3.2-步骤4.3.10进行迭代训练,得到训练好的最优参数θ*所对应的最优Actor网络以及最优参数所对应的最优Critic网络;
步骤4.3.11、将n个数据包输入所述最优Actor网络和最优Critic网络,并由所述最优Actor网络的输出最优解,根据所述最优解所对应的最优资源分配方案,将采集的数据传输给无线网络,从而实现资源分配和调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学;国网安徽省电力有限公司电力科学研究院,未经合肥工业大学;国网安徽省电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011478035.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种玉米的种植方法
- 下一篇:一种快速拼接式彩钢活动房