[发明专利]基于深度确定性策略梯度算法的发电商智能体及报价方法在审
申请号: | 202011573875.2 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112598473A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 朱炳铨;肖艳炜;李继红;项中明;孙珂;徐立中;裘雨音;孔飘红;黄志华;申建强;王高琴;史新红;郑亚先;杨争林;冯树海;王子恒 | 申请(专利权)人: | 国网浙江省电力有限公司;中国电力科学研究院有限公司;国家电网有限公司;国网浙江省电力有限公司湖州供电公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06Q30/08;G06Q50/06;G06N3/04;G06N3/08 |
代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 李晓晓 |
地址: | 310007 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 确定性 策略 梯度 算法 发电 智能 报价 方法 | ||
本发明公开了一种基于深度确定性策略梯度算法的发电商智能体及报价方法,智能体包括:深度确定性策略梯度算法网络构建模块,用于建立由深度Actor网络、深度Critic网络以及由Experience Replay memory构成的经验回放库;探索性报价动作生成模块,用于建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于Current Actor Network计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到Experience Replay memory中。本发明通过深度强化学习的方法寻找发电商在非完全信息下的动态报价策略,是一种高效的报价决策工具,有助于发电商更加准确地在电力市场进行报价。
技术领域
本发明涉及电力技术,尤其涉及一种基于深度确定性策略梯度算法的发电商智能体及报价方法。
背景技术
随着电力现货市场在国内市场的涌现,发电商将逐渐参与电力市场的竞价以获取自身的利益,在市场环境下,参与者为获得更高的利润,总是不断优化自身的投标策略。目前,我国电力市场还处于刚刚起步的阶段,发电商对市场环境还不熟悉,需要完善的报价策略理论作为指导。高效的报价决策工具可以帮助决策人员和报价人员进行一次成功的报价从而获得高额的收益。除此之外,研究和推演发电商的报价行为,还有助于电力市场的监管机构对发电商的行为进行考察,从而识别市场规则中的存在的漏洞,不断完善我国的电力市场,因此,对电力市场中发电商行为进行研究是十分必要的。
然而,市场信息对于参与者而言并不完全,参与者对于自身策略的优化具有较大的难度。传统的发电商报价策略研究方法主要是基于博弈论方法,博弈论方法对于从理论上探讨市场成员的最优投标策略以及比较粗略地研究发电公司投标行为是很有用的,但由于博弈论方法的固有缺陷使得其实用性不强,因此不适合用来研究完整的投标策略。
为了模拟非完全信息的电力市场真实环境中众多竞争对手存在的情况下,发电商最大化自身收益的有限理性报价行为,基于数值驱动的强化学习等机器学习算法越来越多地被采用,目前基于强化学习算法的发电商报价策略的研究多采用Q-learning及其变形算法。该算法的思想是通过查找有限规模的二维Q值表来得到状态-动作的期望值,因此需要把模型进行相应的简化,将连续的状态空间简化成有限个状态区间。基于上述原因,Q值表的大小对Q-learning算法的寻优能力影响较大,随着模型中考虑的状态数的增加或状态区间的缩小,Q值表的规模呈指数增长,容易造成维数灾难。
发明内容
本发明的目的在于提供一种基于深度确定性策略梯度算法的发电商智能体及报价方法,以解决现有技术存在的发电商智能体的报价系数不连续的技术问题。本发明考虑了在现实情况中,无法获取市场中的完全信息,发电商不需要已知他人策略和他人的机组成本参数,利用深度学习和强化学习给出连续值的最优报价。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于深度确定性策略梯度算法的发电商报价方法,包括以下步骤:
建立由Current Critic Network、Target Critic Network、Current ActorNetwork、Target Actor Network和Experience Replay memory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化;
建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于CurrentActor Network计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到Experience Replaymemory中。
本发明进一步的改进在于:还包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司;中国电力科学研究院有限公司;国家电网有限公司;国网浙江省电力有限公司湖州供电公司,未经国网浙江省电力有限公司;中国电力科学研究院有限公司;国家电网有限公司;国网浙江省电力有限公司湖州供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011573875.2/2.html,转载请声明来源钻瓜专利网。