[发明专利]一种基于深度强化学习的智能电热水器保温档负荷控制方法有效
申请号: | 202011408553.2 | 申请日: | 2020-12-05 |
公开(公告)号: | CN112510719B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 操菁瑜;孙长银;陆科林;徐乐玏 | 申请(专利权)人: | 东南大学 |
主分类号: | H02J3/14 | 分类号: | H02J3/14;F24H9/20;F24H15/152;F24H15/212;F24H15/269;F24H15/37;F24H15/421;F24H15/45 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 电热水器 保温 负荷 控制 方法 | ||
1.一种基于深度强化学习的智能电热水器保温档负荷控制方法,其特征在于,所述方法包括以下步骤:
步骤S1:采用LSTM时序预测技术预测未来24小时电价;
步骤S2:采用基于DQN的深度强化学习方法训练电热水器保温档负荷控制智能体,最大化长期回报;
步骤S2具体如下:
步骤S201,初始化经验池D,估计动作值网络Qθ和目标动作值网络初始化电热水器状态P0为零时电价,t0为65℃;
步骤S202,电热水器保温档负荷控制智能体有5种功率可以选取,动作空间记为A={0.2Kwh,0.45Kwh,0.7Kwh,1.0Kwh,1.5Kwh},电热水器以ε的概率采取贪婪算法选取动作argmaxaQ(si,a;θ),以(1-ε)的概率随机选取动作ai;
步骤S203,i小时的状态观测值为si=[Pi,ti],其中参数Pi代表第i小时的电价,是与时间相关的变量;参数ti代表第i小时的电热水器水温,是与智能体选取的控制动作相关的变量;
步骤S204,状态转移si+1=f(si,ai),其中Pi转换至Pi+1,Pi+1为预测电价信息中第i+1小时的电价;ti转换至ti+1,ti+1=ti+Δti,Δti为智能体控制动作ai带来的第i小时电热水器水温的变化;
步骤S205,奖励函数r=-(β*0.001*(Pi-4.6)*PR+2*(65-ti)),其中,0.001*Pi*PR表示电力的消耗,-4.6是为了让智能体在电价低于4.6EUR/Mwh时选择较大功率避免水温下降太快,2*(65-ti)表示当用户需要用水时加热到65℃所需要等待的时间,用它来衡量用户满意度的大小,β表示电力消耗和用户满意度之间的平衡系数,电热水器负荷控制智能体执行动作ai,观测奖励值和下一时刻的状态si+1;
步骤S206,将(si,ai,ri,si+1)记录进经验池D中;
步骤S207,从经验池D中随机抽取迷你批样本(sj,aj,rj,sj+1);
步骤S208,根据目标动作值网络参数计算目标动作值,与估计值网络参数θ无关,公式其中θ-为目标网络的参数;
步骤S209,最小化损失函数J(θ)=E[(yj-Q(sj,aj;θ))2],通过梯度下降法进行反向传播更新估计值网络θ的参数;
步骤S210,重复步骤S202-S209,每隔N步将估计动作值网络参数复制给目标动作值网络参数以更新目标动作值网络参数;
步骤S211,重复步骤S201-S210,直到学习出使得奖励值最大的策略π。
2.根据权利要求1所述的基于深度强化学习的智能电热水器保温档负荷控制方法,其特征在于,步骤S1所述的采用LSTM网络预测未来电价,具体方法是:步骤S11:将当日的电价信息作为输出,所在小时的前48小时电价信息作为输入训练LSTM时序参数;
步骤S12:将最近48小时的电价数据输入LSTM网络预测未来24小时每小时的电价,记为Pi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011408553.2/1.html,转载请声明来源钻瓜专利网。