[发明专利]一种污水处理的强化学习控制方法有效
申请号: | 201811027864.7 | 申请日: | 2018-09-04 |
公开(公告)号: | CN109001981B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 黄孝平;文芳一;黄文哲 | 申请(专利权)人: | 南宁学院 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 崔自京 |
地址: | 530200 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 污水处理 强化 学习 控制 方法 | ||
1.一种污水处理的强化学习控制方法,其特征在于:在现场控制器控制的过程中,获取现场控制器的输入信号,并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制,其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N,N从0逐渐增大至100%;当强化学习模型的输出指令中数值在最终输出指令总数值的占比为100%时,切断现场控制器控制的输入和输出;
所述将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出,采用如下步骤:
a.获取现场控制器的输出指令和强化学习模型的输出指令;
b.将现场控制器的输出指令和强化学习模型的输出指令中的数值取出为现场控制器输出指令数值和强化学习模型输出指令数值;
c.将强化学习模型输出指令数值乘以系数N后更新为新的强化学习模型输出指令数值;
d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值;
e.将新的现场控制器输出指令数值和新的强化学习模型输出指令数值叠加得到输出指令叠加值;
f.将输出指令叠加值封装为输出指令发送指令;
所述强化学习模型采用如下方式更新:
a.获取现场控制器的输入作为当前现场控制器输入,将当前现场控制器输入作为值函数的输出反向计算值函数的输入,计算结果作为当前模拟输入;
b.根据当前模拟输入和前一现场控制器输入的误差值更新值函数,如无前一现场控制器输入,则将当前模拟输入直接作为误差值;
c.将当前现场控制器输入代入至更新后的值函数中计算输出指令值;
d.当前现场控制器输入更新至前一现场控制器输入,将输出指令值封装为输出指令发送,然后进入下一时序,等待获取现场控制器的输入。
2.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述N初始为0,每经过M次将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制的步骤后,N自加0.5%。
3.如权利要求2所述的污水处理的强化学习控制方法,其特征在于:所述M取值由用户设定,但限定为5~20。
4.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述强化学习模型采用带值函数逼近的TD学习算法。
5.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述强化学习模型的值函数为高斯核函数。
6.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:每一时序时长一小时。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南宁学院,未经南宁学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811027864.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:高频谐振腔调谐方法
- 下一篇:一种非线性系统自适应神经容错控制方法