[发明专利]一种分布式资源协同调度的多智能体强化学习方法在审
申请号: | 202310401017.7 | 申请日: | 2023-04-14 |
公开(公告)号: | CN116542137A | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 谈竹奎;刘斌;张俊玮;冯圣勇;潘旭辉;何龙;王秀境;徐长宝;张秋雁;徐玉韬;唐赛秋;徐宏伟;陈敦辉 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/092;G06N3/006;H02J3/38;G06F113/04;G06F111/04 |
代理公司: | 南京禹为知识产权代理事务所(特殊普通合伙) 32272 | 代理人: | 周局 |
地址: | 550002 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 资源 协同 调度 智能 强化 学习方法 | ||
本发明公开了一种分布式资源协同调度的多智能体强化学习方法包括,建立分布式设备接入配网的仿真环境;搭建不同分布式设备强化学习的智能体;所述智能体与所述仿真环境交互训练;通过训练好的所述智能体进行决策。通过本发明,研究人员可以通过历史数据的训练,通过神经网络的强大数据拟合能力,在不需要知道所有分布式设备聚合模型的所有参数情况下精准快速决策。通过本发明,电动汽车聚合商、分布式光伏设备、储能能够实现用户与电网的双向互动,解决传统优化方法优化时间过长、参数感知不全导致决策不准的问题。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种分布式资源协同调度的多智能体强化学习方法。
背景技术
当前,作为新能源消纳主体的配电网本身线路分支多、线路结构复杂,同时大量分布式可控资源接入电网不可避免导致电网运行方式多样复杂,用户能够通过分布式可控设备实现与电网的双向互动,然而现阶段大部分研究都是基于分布式设备聚合模型的建立与电价激励机制的研究,当电网不能全面感知底层聚合模型的所有参数时给决策带来了极大的困难,难以根据当前的状态做出最优决策,同时,电网分布式光伏设备、电动汽车协调优化的非凸性和高不确定性使得求解时间过长,难以满足调控的需求。因此,能否探索一种智能化的方法解决上述分布式优化方法带来的不足。
近年来,随着人工智能技术兴起和发展,强化学习(ReinforcementLearning)作为解决序贯决策问题的重要科学范式,通过与环境交互试错,在持续学习中更新价值评判和策略选择,成为解决序贯决策问题行之有效的技术,特别是深度神经网络与强化学习结合后的深度强化学习模型(Deep Reinforcement Learning,DRL),具有更好的自适应学习能力和解决非凸非线性问题的优化决策能力,其为处理复杂电力系统分布式可控资源协同调度问题提供了新的思路。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种分布式资源协同调度的多智能体强化学习方法,能够解决传统优化方法优化时间过长、参数感知不全导致决策不准的问题。
为解决上述技术问题,本发明提供如下技术方案,一种分布式资源协同调度的多智能体强化学习方法,包括:
建立分布式设备接入配网的仿真环境;
搭建不同分布式设备强化学习的智能体;
所述智能体与所述仿真环境交互训练;
通过训练好的所述智能体进行决策。
作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述仿真环境,具体包括:
所述分布式设备接入的配电网需要满足电力系统潮流方程约束、电压安全稳定约束、储能设备运行约束、分布式光伏设备约束、电动汽车聚合商约束条件,所述分布式设备接入后,根据所述分布式设备给出的决策评价其决策的优劣并以奖励值的形式返回到所述智能体中。
7.作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述电力系统潮流方程约束:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310401017.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高尔夫球杆袋
- 下一篇:塑封料组合物及其在SIP封装中的应用