[发明专利]基于强化学习的多Agent污水处理决策支持系统有效
申请号: | 201110147186.X | 申请日: | 2011-06-02 |
公开(公告)号: | CN102207928A | 公开(公告)日: | 2011-10-05 |
发明(设计)人: | 倪建军;刘明华;马华伟;谭宪军 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G06F15/18 | 分类号: | G06F15/18;G06N99/00 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 agent 污水处理 决策 支持系统 | ||
1.一种基于强化学习的多Agent污水处理决策支持系统,其特征是,包括以下步骤:
a、将水污染源附近的n个污水处理厂分别抽象成具有一定属性的Agent主体,每个Agent包括污水处理厂的处理能力C、污水处理厂与污染源的距离D、主要针对处理的污染物质E、单位距离污水运输的费用P1、单位体积污水处理的费用P2;
b、将强化学习与Agent相结合,定义强化学习的状态集S={C,D,E,P1,P2},动作集A={a1,a2},其中,a1表示该Agent加入污水处理系统,a2表示该Agent不加入污水处理系统;
c、初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;
d、各个污水处理厂Agent通过感知模块获得当前状态s,s∈S,并根据动作选择策略选择当前状态s下最优动作;
e、动作选择策略采用Boltzmann策略,通过执行动作a得到新的状态s′,同时从外界环境得到回报值r;
f、对Q学习中的Q值进行Q值的计算与更新;
g、一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策,选择最佳的一个或多个污水处理厂Agent加入此次污水处理过程。
2.根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统,其特征是,所述Boltzmann动作选择策略公式为:
其中,a为所选择的最佳动作,a′为在s状态下可选择的所有动作,Q为行为的值函数,τ是一个正的参数,称为退火温度,用它来控制搜索率,行为的选择取决于该状态-行为对的Q值函数和参数τ。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110147186.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:相关词汇的查询系统及其查询方法
- 下一篇:微型液体冷却系统