[发明专利]一种基于DQN算法的能源互联网优化策略方法在审

申请号：	202011181281.7	申请日：	2020-10-29
公开（公告）号：	CN112084680A	公开（公告）日：	2020-12-15
发明（设计）人：	尤福财;赵琰;董香栾;姜河;胡博;王顺江;罗金鸣;马艳娟;王浩;旋璇;庄严;魏莫杋;辛长庆	申请（专利权）人：	沈阳工程学院
主分类号：	G06F30/20	分类号：	G06F30/20;G06F30/27;G06N3/04;G06Q50/06;H02J3/00
代理公司：	沈阳之华益专利事务所有限公司 21218	代理人：	黄英华
地址：	110136 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 dqn 算法能源互联网优化策略方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于DQN算法的能源互联网优化策略方法，其特征在于包括如下步骤：

步骤1：以考虑惩罚函数的能源互联网运营成本最低为目标，建立目标函数；

步骤2：将能源互联网模型构建为MDP，设置迭代次数i，离散时间间隙t，输入t时刻的状态变量，s_t{WT(t)，PV(t)，DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)}；

步骤3：actor网络输出动作变量a_t；

步骤4：计算回报值r(a_t|s_t)到达下一状态S_t+1；

步骤5：得到序列轨迹{S₁,a₁,r₁,S′₁,S₂,a₂,r₂,S′₂…S_t,a_t,r_t,S′_t}；形成经验池experience pool；并将这些轨迹存储到经验池中，随机抽出数据进行下次迭代；

步骤6：观察是否迭代完所有变量，即t＝T？

步骤7：将S_t状态变量输入到critic网络中，得到输出期望V(s)；

步骤8：计算计及折扣因子的未来回报值R_t＝r(a_t|s_t)+γV(S_t+1)；

步骤9：构造损失函数A＝[R(t)-V(S)]²；

步骤10：利用神经网络反向传播更新网络参数；

步骤11：将S′_t状态变量输入到参数为θ的actor神经网络中，利用ε-greedy求出网络采取a_t的动作概率P_θ(S_t,a_t)；

步骤12：同理，计算参数为θ_a的actor网络采取a_t动作的概率P_θa＝(S_t,a_t)；

步骤13：计算损失函数f_loss＝min(A·P_θ,A·P_θa)；

步骤14：由损失函数迭代更新神经网络参数；

步骤15：查看结果是否收敛到最小回报值，若是，则结束，若不是，则返回继续迭代。

2.根据权利要求1所述的一种基于DQN算法的能源互联网优化策略方法，其特征在于：设计应用actor-critic网络体系结构；其中，神经网络critic估计的价值函数V(s)，其参数为θ_c；两个参数分别为θ和θ_a的神经网络actor用来提出控制策略；其中actor-critic网络都是由卷积神经网络CNN构造而成，CNN用于提取EI网络观测序列的特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沈阳工程学院，未经沈阳工程学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011181281.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种高效粉体清洁剂及其制备方法
下一篇：一种诺丽果植物精华洗发液及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于DQN算法的能源互联网优化策略方法在审

专利文献下载