[发明专利]一种基于深度强化学习的动态电力系统经济调度方法有效
申请号: | 202010972420.1 | 申请日: | 2020-09-16 |
公开(公告)号: | CN112186743B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 张沛;吕晓茜;宋秉睿;李家腾;孟祥飞 | 申请(专利权)人: | 北京交通大学 |
主分类号: | H02J3/00 | 分类号: | H02J3/00;H02J3/46 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 动态 电力系统 经济 调度 方法 | ||
1.一种基于深度强化学习的动态电力系统经济调度方法,其特征在于:
系统调度周期内的经济成本可表示为:
其中,ai,bi,ci为传统火电机组i的成本系数;Pg,i为传统火力发电机i的有功出力;T为调度周期,为24小时;G为系统中的传统火力发电机数量;
根据上述模型,将一天24小时的经济调度分为24个决策周期的马尔可夫过程,在每个决策阶段中,通过观察状态,做出动作决策,并将动作应用于实际电力系统环境中,再得到从环境反馈的奖惩信息与新的状态,重复这一过程,直到整个调度周期结束,决策过程的变量包括:
1)状态st:第t个决策阶段的状态st由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成:
st={P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t,Pline,t,Qline,t,Vt} (8)
其中,P′load,t+1,P′wind,t+1,P′pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值;Pg,t为传统火力发电机在t时刻的实际出力值;Pwind,t和Ppv,t分别为t时刻的风电实际出力值、光伏实际出力值;Pline,t和Qline,t分别为t时刻线路传输有功及无功功率;Vt为t时刻节点电压幅值;
2)动作at
第t个决策阶段的动作at定义为:
其中,为非平衡节点传统火电机组出力动作值;为风电出力动作值;为光伏出力动作值;
依据状态观测值st给出动作at后,需将动作应用到实际电力系统中,受限于传统火电机组相邻时刻爬坡约束,各传统火电机组下一调度时段t+1实际出力状态Pg,i,t+1为:
其中Pi,ramp_up和Pi,ramp_down分别为传统火电机组i的最大上爬坡功率与最大下爬坡功率;
受限于新能源实际最大可发功率,新能源下一时调度时段t+1的出力值为:
其中,和分别为t+1时刻风电与光伏的最大可发功率;
3)奖励reward
当动作at应用在环境中后,需根据环境的变化反馈即时奖励,供学习动作的效果,t时刻的即时奖励由机组出力成本与惩罚函数组成:
rt=-(rcost,t+rpenal,t) (13)
其中,rcost,t为系统经济成本;rpenal,t为违反约束时的惩罚;
为实现新能源的优先消纳,系统经济成本中只计入传统火电机组出力成本,不计新能源出力成本:
惩罚函数考虑电力系统运行安全约束:
其中,k1、k2与k3均为惩罚系数;Tl为线路l的传输视在功率;Tl,max为线路l的传输容量极限;Vn,t为节点n在t时刻的电压幅值;Vn,min和Vn,max分别为节点n电压下限与上限;
4)策略π
策略为状态到动作的映射,指的是给定状态时,动作集上的一个分布,也即在每个状态s指定一个动作概率;
5)流程
在最开始系统处于某种初始状态s0下,系统根据策略π对电网下达动作指令a0,确定下一阶段发电机有功出力值、风光出力,将动作指令与环境交互,环境状态发生改变,并反馈回给调度中心系统作为下一决策阶段的状态s1,计算奖励r0,循环进行这一过程直至最后一个决策阶段;
将上述马尔可夫过程的模型采用深度强化学习算法求解,得到最优的经济调度决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010972420.1/1.html,转载请声明来源钻瓜专利网。