[发明专利]一种基于DQN算法的能源互联网优化策略方法在审

专利信息
申请号: 202011181281.7 申请日: 2020-10-29
公开(公告)号: CN112084680A 公开(公告)日: 2020-12-15
发明(设计)人: 尤福财;赵琰;董香栾;姜河;胡博;王顺江;罗金鸣;马艳娟;王浩;旋璇;庄严;魏莫杋;辛长庆 申请(专利权)人: 沈阳工程学院
主分类号: G06F30/20 分类号: G06F30/20;G06F30/27;G06N3/04;G06Q50/06;H02J3/00
代理公司: 沈阳之华益专利事务所有限公司 21218 代理人: 黄英华
地址: 110136 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 dqn 算法 能源 互联网 优化 策略 方法
【权利要求书】:

1.一种基于DQN算法的能源互联网优化策略方法,其特征在于包括如下步骤:

步骤1:以考虑惩罚函数的能源互联网运营成本最低为目标,建立目标函数;

步骤2:将能源互联网模型构建为MDP,设置迭代次数i,离散时间间隙t,输入t时刻的状态变量,st{WT(t),PV(t),DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)};

步骤3:actor网络输出动作变量at

步骤4:计算回报值r(at|st)到达下一状态St+1

步骤5:得到序列轨迹{S1,a1,r1,S′1,S2,a2,r2,S′2…St,at,rt,S′t};形成经验池experience pool;并将这些轨迹存储到经验池中,随机抽出数据进行下次迭代;

步骤6:观察是否迭代完所有变量,即t=T?

步骤7:将St状态变量输入到critic网络中,得到输出期望V(s);

步骤8:计算计及折扣因子的未来回报值Rt=r(at|st)+γV(St+1);

步骤9:构造损失函数A=[R(t)-V(S)]2

步骤10:利用神经网络反向传播更新网络参数;

步骤11:将S′t状态变量输入到参数为θ的actor神经网络中,利用ε-greedy求出网络采取at的动作概率Pθ(St,at);

步骤12:同理,计算参数为θa的actor网络采取at动作的概率Pθa=(St,at);

步骤13:计算损失函数floss=min(A·Pθ,A·Pθa);

步骤14:由损失函数迭代更新神经网络参数;

步骤15:查看结果是否收敛到最小回报值,若是,则结束,若不是,则返回继续迭代。

2.根据权利要求1所述的一种基于DQN算法的能源互联网优化策略方法,其特征在于:设计应用actor-critic网络体系结构;其中,神经网络critic估计的价值函数V(s),其参数为θc;两个参数分别为θ和θa的神经网络actor用来提出控制策略;其中actor-critic网络都是由卷积神经网络CNN构造而成,CNN用于提取EI网络观测序列的特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳工程学院,未经沈阳工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011181281.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top