[发明专利]一种基于强化学习的污水处理控制方法有效
申请号: | 201811026163.1 | 申请日: | 2018-09-04 |
公开(公告)号: | CN109324508B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 黄孝平;文芳一;黄文哲 | 申请(专利权)人: | 南宁学院 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 贵州派腾知识产权代理有限公司 52114 | 代理人: | 谷庆红 |
地址: | 530200 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 污水处理 控制 方法 | ||
1.一种基于强化学习的污水处理控制方法,其特征在于:包括如下步骤:
1).模型训练:在现场控制器控制的过程中,获取现场控制器的输入信号及输出指令,并根据获取的输入信号及N个时序前的输出指令对环境模型建模;
2).策略调整:在现场控制器控制的过程中,获取现场控制器的输入信号至环境模型,环境模型输出作为策略模型的输入,将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令输出控制;
3).介入控制:停止现场控制器,采用环境模型获取输入、环境模型输出作为策略模型的输入、策略模型输出指令进行控制;
所述步骤2)中,策略模型采用如下方式更新:
a.获取当前环境模型输出,计算当前环境模型输出与前一模拟输出的误差值;
b.根据误差值更新值函数;
c.将当前环境模型输出代入至值函数中计算当前输出指令值;
d.将当前输出指令值代入至环境模型中计算当前模拟输出;
e.当前模拟输出更新至前一模拟输出,将当前输出指令发送,然后进入下一时序,等待获取环境模型输出。
2.如权利要求1所述的基于强化学习的污水处理控制方法,其特征在于:所述对环境模型建模采用RNN算法。
3.如权利要求1所述的基于强化学习的污水处理控制方法,其特征在于:所述环境模型输出为概率值向量。
4.如权利要求1所述的基于强化学习的污水处理控制方法,其特征在于:所述步骤2)中,将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令采用如下方式:
a.获取现场控制器的输出指令和策略模型的输出指令;
b.将现场控制器的输出指令和策略模型的输出指令中的数值取出为现场控制器输出指令数值和策略模型输出指令数值;
c.将策略模型输出指令数值乘以系数N后更新为新的策略模型输出指令数值;
d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值;
e.将新的现场控制器输出指令数值和新的策略模型输出指令数值叠加得到输出指令叠加值;
f.将输出指令叠加值封装为输出指令发送指令。
5.如权利要求4所述的基于强化学习的污水处理控制方法,其特征在于:所述N为0.1~0.2。
6.如权利要求4所述的基于强化学习的污水处理控制方法,其特征在于:所述N初始为0.1,每经过M次将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令的步骤后,N自加0.005直到N为0.2。
7.如权利要求6所述的基于强化学习的污水处理控制方法,其特征在于:所述M取值由用户设定,但限定为10~30。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南宁学院,未经南宁学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811026163.1/1.html,转载请声明来源钻瓜专利网。