[发明专利]一种基于DQN算法的能源互联网优化策略方法在审
申请号: | 202011181281.7 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112084680A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 尤福财;赵琰;董香栾;姜河;胡博;王顺江;罗金鸣;马艳娟;王浩;旋璇;庄严;魏莫杋;辛长庆 | 申请(专利权)人: | 沈阳工程学院 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F30/27;G06N3/04;G06Q50/06;H02J3/00 |
代理公司: | 沈阳之华益专利事务所有限公司 21218 | 代理人: | 黄英华 |
地址: | 110136 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dqn 算法 能源 互联网 优化 策略 方法 | ||
1.一种基于DQN算法的能源互联网优化策略方法,其特征在于包括如下步骤:
步骤1:以考虑惩罚函数的能源互联网运营成本最低为目标,建立目标函数;
步骤2:将能源互联网模型构建为MDP,设置迭代次数i,离散时间间隙t,输入t时刻的状态变量,st{WT(t),PV(t),DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)};
步骤3:actor网络输出动作变量at;
步骤4:计算回报值r(at|st)到达下一状态St+1;
步骤5:得到序列轨迹{S1,a1,r1,S′1,S2,a2,r2,S′2…St,at,rt,S′t};形成经验池experience pool;并将这些轨迹存储到经验池中,随机抽出数据进行下次迭代;
步骤6:观察是否迭代完所有变量,即t=T?
步骤7:将St状态变量输入到critic网络中,得到输出期望V(s);
步骤8:计算计及折扣因子的未来回报值Rt=r(at|st)+γV(St+1);
步骤9:构造损失函数A=[R(t)-V(S)]2;
步骤10:利用神经网络反向传播更新网络参数;
步骤11:将S′t状态变量输入到参数为θ的actor神经网络中,利用ε-greedy求出网络采取at的动作概率Pθ(St,at);
步骤12:同理,计算参数为θa的actor网络采取at动作的概率Pθa=(St,at);
步骤13:计算损失函数floss=min(A·Pθ,A·Pθa);
步骤14:由损失函数迭代更新神经网络参数;
步骤15:查看结果是否收敛到最小回报值,若是,则结束,若不是,则返回继续迭代。
2.根据权利要求1所述的一种基于DQN算法的能源互联网优化策略方法,其特征在于:设计应用actor-critic网络体系结构;其中,神经网络critic估计的价值函数V(s),其参数为θc;两个参数分别为θ和θa的神经网络actor用来提出控制策略;其中actor-critic网络都是由卷积神经网络CNN构造而成,CNN用于提取EI网络观测序列的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳工程学院,未经沈阳工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011181281.7/1.html,转载请声明来源钻瓜专利网。