[发明专利]基于强化学习的多Agent污水处理决策支持系统有效

申请号：	201110147186.X	申请日：	2011-06-02
公开（公告）号：	CN102207928A	公开（公告）日：	2011-10-05
发明（设计）人：	倪建军;刘明华;马华伟;谭宪军	申请（专利权）人：	河海大学常州校区
主分类号：	G06F15/18	分类号：	G06F15/18;G06N99/00
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	213022 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习 agent 污水处理决策支持系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种强化学习算法应用到污水处理的多Agent决策支持系统，是智能决策支持系统中的一种应用，属于人工智能技术领域。

背景技术

随着城市化、工业化的加速，水资源的需求缺口也日益增大，在这样的背景下，污水处理行业成为新兴产业。目前，污水处理厂的控制系统基本都采用集散型控制系统体系结构。其中上层(监管层)采用工业控制计算机，主要完成设定值的输入操作，各工艺参数、电气参数及主要设备运行状态信息的管理，并以趋势图、表格形式显示，给出各种临界提示及错误、越限报警；下层(控制层)由PLC实现数据的采集、控制算法的实现、控制命令的下发以及工艺过程的连锁等功能。智能控制主要集中在底层针对某参数或环节的智能控制器的研究上，因此，如何利用人工智能(Artificial Intelligence，缩写AI)技术对整个污水处理过程进行系统地、有效地监控、管理是应进一步展开的工作。

决策支持系统是支持决策者解决半结构化决策问题的具有智能作用的人机系统，该系统能够为决策者迅速而准确地提供决定所需的数据、信息和背景材料，帮助决策者明确目标，建立或修改决策模型提供各种备选方案，对各种方案进行评价和优选，为正确决策提供有力支持。Agent是一类在特定环境下能感知环境，并能自治地运行以代表其设计者或使用者实现一系列目标计算实体或程序。MAS(Multi-Agent System)是由多个Agent组成的分布式自主系统，它在Agent理论的基础上重点研究Agent的互操作性及Agent间的协商和协作等。MA S不仅改善了每个Agent的基本能力，而且可以从Agent的通讯、合作、互解、协调、调度、管理及控制来表达系统的结构、功能及行为特性，进一步理解系统的社会行为，已经成功地应用于智能机器人、智能交通系统软件开发、移动通讯及网络浏览等众多领域。强化学习是无监督学习方法，目前已被广泛应用于预测、智能控制、决策支持等诸多领域。

发明内容

本发明的目的是：提供一个较智能的污水处理决策支持系统，通过计算污水处理的成本效益来决策是否需要不同的污水处理厂协作处理污水，污水处理厂Agent根据自身的属性决定是否需要加入此次污水处理过程，从而保证在较低的经济成本下最有效地处理污水，改善水环境。

为了达到上述目的，本发明采取的技术方案是：基于强化学习的多Agent污水处理决策支持系统，其特征是：包括以下步骤：

a、从整个污水处理系统全局出发，在污水处理的管理层上对污水处理厂进行控制、调配，判定是否选择该处理厂加入污水处理行列。将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体，每个Agent主要包括污水处理厂的处理能力C，污水处理厂与污染源的距离D，主要针对处理的污染物质E，单位距离污水运输的费用P1，单位体积污水处理的费用P2；

将每个Agent赋予一定的属性，不仅可以有效处理Agent间的协商与协作关系，也增强了系统的可扩展性。

b、将强化学习与Agent概念相结合，定义强化学习的状态集S＝{C，D，E，P1，P2}，动作集A＝{a1，a2}，其中，a1表示该Agent加入污水处理系统，a2表示该Agent不加入污水处理系统；

污水处理厂被抽象成具有一定属性的Agent参数，Agent参数通过与外界环境即水污染状况交互，获得状态S，执行动作A，并获得回报值r(奖励或惩罚)。

强化学习把学习看成一个试探评价的过程，如果污水处理厂Agent的某个行为策略如加入或不加入污水处理行列导致外界环境包括环境效益和经济效益的综合效益反馈正的回报值即r＞0，那么Agent产生这个行为策略的趋势将会加强；如果Agent的某个行为策略导致环境反馈负的回报值，那么Agent产生这个行为策略的趋势将会减弱，多Agent系统中强化学习就是Agent从环境(同时包括其他Agent行为产生的影响)到行为映射的学习，以使奖励回报值最大。

c、初始化强化学习中Q学习的参数，包括学习速率、折扣因子、Q值；

d、各个污水处理厂Agent通过感知模块获得当前状态s，s∈S，并根据动作选择策略选择当前状态s下最优动作；

e、每个污水处理厂Agent根据一定的策略选择动作，策略可看成状态空间到行为空间的映射，即污水处理厂Agent在特定的状态下(如污水处理厂的处理能力为c，污水处理厂与污染源的距离d，主要针对处理的污染物质e，单位距离污水运输的费用p1，单位体积污水处理的费用p2)时如何选择特定的行为(加入或者不加入此次污水处理过程)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学常州校区，未经河海大学常州校区许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110147186.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F15-00 通用数字计算机
G06F15-02 .通过键盘输入的手动操作，以及应用机内程序的计算，例如，袖珍计算器
G06F15-04 .在引入被处理的数据的同时，进行编制程序的，例如，在同一记录载体上
G06F15-08 .应用插接板编制程序的
G06F15-16 .两个或多个数字计算机的组合，其中每台至少具有一个运算器、一个程序器及一个寄存器，例如，用于数个程序的同时处理
G06F15-18 .其中，根据计算机本身在一个完整的运行期间内所取得的经验来改变程序的；学习机器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习的多Agent污水处理决策支持系统有效

专利文献下载