[发明专利]一种基于鲁棒强化学习的排水系统控制方法有效
申请号: | 202110335721.8 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113050430B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 汪启杭;金韬;刘伟明;冯鹏宇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 排水系统 控制 方法 | ||
本发明公开了一种基于鲁棒强化学习的排水系统控制方法,首先利用SWMM模型对排水系统进行计算机建模,划子汇水区域,对排水系统中各种设施进行精确建模。然后在建模的基础上,本发明构建了强化学习环境,来实现控制方法和排水系统的交互。基于马尔科夫过程(MDP)构建了强化学习算法的基本框架。并针对排水系统随机扰动大的特点,引入条件风险价值函数CVaR来提升算法框架的鲁棒性,得到了带CVaR约束条件的MDP,最后结合深度置信策略梯度(DDPG)算法构建了鲁棒强化学习算法。本发明将鲁棒强化学习应用于排水管网系统,可以通过计算机自动控制的方式来对排水管网系统这类复杂系统进行较为精确的控制,其控制精度和鲁棒性要优于现有的方法。
技术领域
本发明涉及排水系统的自动化控制领域,尤其涉及一种基于鲁棒强化学习的排水系统控制方法。
背景技术
强化学习是与自动控制理论息息相关的一种重要的算法,通过训练一个智能体,与环境不断交互,从交互数据样本中学习到一种最优的策略,使得智能体在某次交互的过程中获得的全局损失值最小。由于它不需要精确的系统建模就可以得到较好的控制效果,并且对环境变化的适应性强,因此,它在如游戏AI,机器人控制等领域得到了非常广泛的应用。在排水系统的控制中,传统的方法如PID算法一般在线性时不变的系统表现较好,但是它对非线性的系统控制效果会变差。排水系统的非线性严重,并且还有很强的随机扰动(降雨量是很大的随机变量,且对水位深度影响显著)。此外,排水系统中通常涉及多目标控制,各状态参量之间耦合非常大,这时候传统的控制算法效果会变得非常差。本文中提出的鲁棒强化学习方法,可以有效地将各参量控制在阈值以下,其中,DDPG算法是基于函数逼近的方法,因此它可以很好地对连续状态变量进行建模,实现连续控制。基于带约束条件的MDP方法则是从控制算法的安全性和鲁棒性出发,考虑了随机扰动导致损失函数波动所带来的问题,如算法稳定性差、波动大或无法收敛等情况。
对于排水系统的控制领域,传统方法主要有:
a)PID算法
PID算法的应用非常广泛,由于其算法简单、鲁棒性强和可靠性高,被广泛应用于工业过程的控制。它的表达式如下:
e(t)为误差函数:
e(t)=S(t)-S(t-1)
b)模糊自适应PID算法
模糊自适应PID算法在PID算法中增加了模糊规则控制器,通过误差和误差的变化率来自动调整三项系数Kp,Ki,Kd,一定程度上改善了控制器对时变和非线性系统的控制能力。
c)MPC(Model Predictive Control)模型预测控制算法,模型预测控制是根据系统当前时刻的状态以及输入,对下一个或多个状态给出预测值,结合预测状态值输出控制信号,它的优势在于可以处理多输入多输出的系统,一定程度上解决了状态变量耦合的问题。它的缺点是在每一步输出控制信号之前,都需要对系统进行预测,这种预测是基于模型的,因此若系统难以预测,则需要进行多次调整,找到最接近的系统状态预测值,这样的运算是比较消耗时间的,特别是对于复杂系统会消耗更长的时间。
综合以上,现有的算法存在以下缺点:
1.对于非线性时变系统表现不够好。
如PID算法和模糊PID算法,它们结构比较简单,适用于很多简单的系统,如恒温箱温度控制,但是在涉及复杂系统时,它们表现会较差。
2.需要掌握模型的知识才能达到较好的控制效果。
如MPC方法,模型预测控制方法需要给出系统的下一步或者几步的状态预测值,因此需要掌握被控模型的信息,若被控模型是一个很难预测的系统,则无法获得准确的预测值,或者需要足够多的样本才能计算出预测值,极其消耗算力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110335721.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动式碎石筛分设备
- 下一篇:时钟数据恢复方法及装置