[发明专利]一种基于鲁棒强化学习的排水系统控制方法有效
申请号: | 202110335721.8 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113050430B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 汪启杭;金韬;刘伟明;冯鹏宇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 排水系统 控制 方法 | ||
1.一种基于鲁棒强化学习的排水系统控制方法,其特征在于,包括以下步骤:
(1)对排水系统进行建模,划分子汇水区域,定义关键对象,具体为:
(1.1)将待研究区域划分成大小不同,形状各异的若干子汇水区域,定义每个区域的雨量计、出水口、宽度、坡度、渗透率、采用的渗透方程和土地类型;具体为:
(1.1.1)定义雨量计,雨量计是一个提供降雨数据的对象,它的数据是一个时间序列;
(1.1.2)定义出水口,出水口为接受子汇水区域排水的节点;
(1.1.3)定义子汇水区域的宽度,即薄层径流的地表漫流特征宽度,单位为米或英尺;
(1.1.4)定义不渗透百分比和不渗透地表面积百分比;
(1.1.5)定义子汇水区域渗透方程,包括Horton渗透方程、Green-Ampt渗透方程和SCS曲线渗透方程;
(1.1.6)定义土地类型,即土地开发活动的类型或者子汇水区域的地表特征
(1.2)定义排水系统模型中的关键对象,所述关键对象包括蓄水单元、管道、节点、调节阀和排水口;建模所需参数为:
(1.2.1)蓄水单元的建模,模型中有若干蓄水单元,需要定义其内底标高、最大高度、表面积和深度方程,
(1.2.2)管道的建模,管道是连接不同对象的管线,它的参数有进水节点、出水节点、管道截面形状、长度、直径和曼宁粗糙系数;
(1.2.3)节点的建模,节点是不同管道联结的交合处,需要指定其内底标高、最大深度和初始深度;
(1.2.4)调节阀的建模,调节阀是一个能够通过调节其开度来控制流量大小的节点,它的参数包括截面形状、流量系数、开启/关闭所需时间、是否具有防止水倒灌功能的拍门;
(1.2.5)排水口的建模,需要定义其内底标高;
(1.3)将降雨量数据集分割为训练集和测试集,将数据集输入排水系统模型的雨量计中;将降雨量数据集按照3:1的比例分割为训练集和测试集,降雨量数据集来自于气象资料,通常按照月份进行分割,每个数据文件的降雨量按照一定时间间隔采样一次来进行统计,并且每个数据文件里包含某个月的降雨量统计,最后将数据文件导入排水系统模型的雨量计中,生成新的模型文件;
完成排水系统模型的建模后,运行、测试模型的连续性误差,使误差最低;
(2)构建强化学习环境,强化学习环境的作用是提供一个与智能体进行交互的接口,通过接口实现对排水系统状态参数的跟踪和控制,实现方法为利用SWMM的计算引擎代码进行计算和控制,并调用SWMM的库函数提取运算结果;具体步骤为;
(2.1)定义环境的状态空间S和动作空间A;
(2.2)利用强化学习常用三方库gym进行环境的配置;
(2.3)定义Node对象和Link对象,定义待控制对象,读取其属性信息;
(2.4)定义交互函数,它的功能为提供智能体与环境的交互接口,每输入一个动作值,环境状态值发生改变,然后将更新后的状态值和损失值反馈给智能体;
(2.5)定义损失函数,它的功能为根据状态空间中的参数计算损失值,然后再通过交互函数反馈给智能体;
(2.6)定义终止函数,排水系统完成运行后将调用此函数,退出强化学习环境;
(3)通过鲁棒强化学习算法实现排水系统的控制,包括:
(3.1)基于马尔科夫决策过程(MDP)构建强化学习的基本理论框架;具体为:
(3.1.1)定义全局损失值;假设排水系统的每步状态表示为S0,S1,S2...,智能体每步动作表示为A1,A2,A3...,每步损失值表示为R1,R2,R3...,则智能体与排水系统的交互轨迹由下述轨迹来描述:
S0,A0,R1,S1,A1,R2,S2,A2,R3,...
为了区分不同时刻智能体所获损失值,应将不同时刻损失值乘上折扣系数γ(0≤γ1),则在t时刻后,该轨迹线中智能体所获全局损失Gt定义为:
(3.1.2)智能体在每一条交互轨迹线中所能获得的总损失是跟它所采取的策略函数π(a|s)是相关的,因此通过最小化交互轨迹的总损失和即可获得最优策略;在给定当前状态St=s以及策略函数π的情况下,由于策略函数π是一个随机变量函数,那么总损失同为随机变量,将总损失的期望值定义为价值函数,记为Vπ(s),其定义式如下:
类似地,在策略π下,状态s时所采取的动作a的价值函数记为Qπ,称为动作-价值函数,其定义式如下:
(3.1.3)通过对动作-价值函数的最小化能够获得最优策略:
(3.2)基于条件风险价值函数(CVaR)改进MDP过程,包括以下子步骤:
(3.2.1)在MDP过程中引入风险价值函数(VaR)和条件风险价值函数(CVaR),得到带约束的MDP过程;定义一个随机变量X,在本算法框架中,它代表的是智能体交互过程的全局损失,X的累积概率密度函数为F(x)=P{X≤x},则风险价值函数的定义式如下:
VaRα(X)=min{x|F(x)≥1-α}
它的含义是随机变量X的分布概率密度函数的1-α分位点,表示在置信度水平α下,随机变量X的样本中,可能出现的最大损失值,将VaRα(X)记为v;
条件风险价值函数指的是随机变量X中超过风险价值v的部分样本的期望值,它量化了X中高于风险价值v的部分样本的数值特征,其定义式如下:
CVaRα(X,v)=E[X|X>v]
进一步地,展开为:
其中,(x)+=max(x,0),表示变量x中大于0的部分;
(3.2.2)带约束的MDP采取如下的优化方式:
A.对MDP过程进行约束,定义策略函数π(a|s,θ),a为当前动作,s为当前状态,θ为分布参数,由θ来确定策略函数π;定义损失函数Gθ(s,π(a|s,θ)),损失函数表示在当前状态s和当前策略π下,智能体所获全局损失值;假设损失函数的约束上界为b,记CVaR函数为Cα(X,v),则带约束条件的MDP目标函数如下:
min Vπ(s)subject to Cα(Gθ(s,π(a|s,θ)),v)≤b
其中Vπ(s)为动作-价值函数,即损失函数的数学期望;
B.对于带约束的最大化或者最小化优化问题,采用拉格朗日乘数法对其进行处理,则目标函数转化为:
C.对拉格朗日函数中的三参数求梯度可得到:
D.进一步地,代入条件风险价值函数表达式后展开可得:
(3.3)基于带约束条件的MDP框架的鲁棒强化学习,用神经网络代替价值函数和策略函数,具体步骤如下:
A.在排水系统模型中,需要控制的状态变量均为连续值,动作变量也是连续值,因此选取DDPG算法作为算法框架,它由四个网络组成,分别是当前策略网络、当前价值网络、目标策略网络、目标价值网络,四网络参数依次为θμ、θQ、θμ′和θQ′;
B.当前策略网络采用策略梯度方法,具体为对当前价值网络输出值的数学期望求解梯度,假设优化目标函数为J(θμ),那么它的梯度如下式:
上式中,a=π(s,θμ)指的是当前策略网络输出的动作值,θμ为其网络参数;G(s,a|θQ)指的是当前价值网络输出值,它相当于全局损失函数,θQ为其网络参数;
C.在此基础上,进一步获得其网络参数更新式:
其中表示当前网络参数,表示更新后网络参数,δ∈(0,1)是学习率;
D.对于带约束的MDP过程,则当前策略网络的优化方式变更为:
E.当前价值网络采用的是TD-Error方法优化,目标函数定义为:
式中,γ为折扣系数,r为单步损失值,G(s,a|θQ′)为目标价值网络输出,与当前价值网络不同的是,它的参数是θQ′,并且它的输入策略a=π(s|θμ′)来自目标策略网络,θμ′为目标策略网络参数;
F.当前价值网络的损失函数即为当前价值和目标价值的均方差:
G.对于目标策略网络和目标价值网络,采用从当前网络复制参数的方法来更新;
θQ′=τθQ+(1-τ)θQ′
θμ′=τθμ+(1-τ)θμ′
式中,τ∈(0,1)是更新系数,表示每次参数更新的步长;
(3.4)在训练集上对鲁棒强化学习模型进行训练,设计神经网络结构,具体为:
(3.4.1)神经网络设计为全连接层,激活函数为Relu,添加Batch Normalization层,神经网络的超参数由调参过程获得;
(3.4.2)神经网络的更新方式通过(3.3)中数学公式来更新四个网络参数;
(3.4.3)设定最小损失阈值,当神经网络的损失低于阈值,则认为网络已经训练好,退出训练进程,并保存权重矩阵到本地;
(3.5)在测试集上对鲁棒强化学习模型进行测试并验证模型效果,具体为:
(3.5.1)统计蓄水单元和节点的水位,看是否有超出设定值的情况出现;
(3.5.2)统计管段的流量,看是否超出最大流量设定值;
(3.5.3)统计节点和蓄水单元的总溢流值以及溢流频次,溢流值即该节点水位过高以至于漫出地表的水量;总溢流值以及溢流频次能够直观地表征排水设施的控制效果;
(3.5.4)通过统计结果,以及对比已有控制算法,验证鲁棒强化学习算法的控制效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110335721.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动式碎石筛分设备
- 下一篇:时钟数据恢复方法及装置