[发明专利]基于多步预测深度强化学习算法的HVAC控制系统有效
申请号: | 202110403130.X | 申请日: | 2021-04-14 |
公开(公告)号: | CN113112077B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 任密蜂;刘祥飞;杨之乐;张建华 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/06;H02J3/00;G06N3/04;G06N3/08 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 江淑兰 |
地址: | 030024 山西*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 预测 深度 强化 学习 算法 hvac 控制系统 | ||
1.基于多步预测深度强化学习算法的HVAC控制系统,其特征在于:包括室外环境温度的多步预测和室内温度的实时控制两个阶段,其中室外环境温度的预测阶段包括以下步骤:
步骤一:根据室外环境的实际数据点,选取连续的i个时刻的室外环境温度X=[T1,…,Ti]作为多步温度预测模型的输入,以h=[hi+1,…,hi+n]作为模型的真实输出,n为多步预测的步数;
步骤二:对采集到的数据进行预处理,对异常的数据进行修正,并将时间序列的数据转换为监督序列的数据;
步骤三:将输入量输入到基于广义互熵损失函数的长短期记忆神经网络中,利用长短期记忆神经网络的遗忘门、输入门和输出门对输入量进行遗忘、记忆和学习;基于广义互熵损失函数的长短期记忆神经网络的非线性回归模型描述如下:
1)将输入量X=[T1,…,Tt]输入到长短期记忆神经网络的第一个block中,遗忘门通过sigmoid函数决定当前时刻的输入信息X和上一时刻的输出信息ht-1有多少能被当前block保留,即遗忘门的输出为ft=σ(wf[ht-1,Xt]+bf),其中wf和bf为神经网络的权重和偏置值,sigmoid函数用σ表示;
2)输入门决定需要更新的信息,首先通过σ函数决定更新后的信息it=σ(wi[ht-1,Xt]+bi),其次通过tanh函数产生新的候选值最后当前block的候选值ct将由遗忘门的输出、输入门的输出、新的候选值和上个block的候选值共同决定,即:其中wi,wc,bi和bc为输入门神经网络的参数值;
3)输出门得到模型的输出,首先通过σ函数得到一个初始的输出ot=σ(wo[ht-1,Xt]+bo),其次将2)中得到候选值信息ct通过激活函数tanh缩放到-1和1之间,最终得到模型的输出ht=ot*tanh(ct),其中wo,bo为输出门神经网络的参数;
4)基于广义互熵损失函数计算真实值Yt与预测值ht之间的误差,如下面的式子:
Gα,β(0)为零均值广义高斯密度函数,为预测值和真实值的样本估计,N是样本的数量,Γ是伽马函数,α>0是形状参数,β>0是带宽参数,进行多次迭代训练,通过最小批次梯度下降法更新神经网络的权重w和偏置值b,使真实值与预测值之间的误差最小;
步骤四:最终基于广义互熵损失函数的长短期记忆神经网络,得到前i个时刻的室外环境温度到未来n个时刻的室外环境温度的非线性映射模型;
室内温度的实时控制包括以下步骤:
步骤一:采集到连续i个时刻的室外环境温度X=[T1,…,Ti],基于广义互熵损失函数的长短期记忆神经网络,获得未来连续n个时刻的室外环境温度h=[hi+1,…,hi+n];获取当前时刻的电网电价ρt和室内温度Ttin等相关信息,将h、ρt和Ttin作为环境信息,即:St={h,ρt,Ttin};
步骤二:将当前的状态信息St输入给深度强化学习DDPG算法的Actor当前神经网路,基于当前的策略μ(St|θμ)和高斯噪声去选择一个动作at∈[Pmin,Pmax],高斯噪声是为了增加动作的探索率,会随着迭代循环次数的增加而减小,θμ是Actor当前神经网路参数,Pmin和Pmax分别为HVAC系统的最小和最大输出功率;
步骤三:执行动作at控制空调的输出功率,HVAC系统的功率的输出会改变室内的环境温度,如:然后获得及时的奖励rt,并且达到下一个状态St+1,ηHVAC、A分别为HVAC的惯性系数、热转换效率、整体导热率;
步骤四:将(St,at,rt,St+1)储存到一个经验池buff-C中;
步骤五:如果经验池buff-C的数据量大于采样数量M,则从经验池buff-N中随机采取M个样本(Si,ai,ri,Si+1),i=1,2,…,M,ri为样本i的奖励,进行下面步骤;否则直接进行步骤十一;
步骤六:计算目标的期望值yi=ri+γQ'(Si+1,μ'(Si+1|θμ')|θQ'),其中μ'(Si+1|θμ')是从Actor的目标神经网络中获得最优的动作,Q'(Si+1,μ'(Si+1|θμ')|θQ')是Critic的目标网络Q'基于下一时刻的状态信息和最优动作信息输出的未来的目标值,γ是折扣因子,θμ'和θQ'分别为Actor的目标神经网络的参数和Critic的目标网络的参数;
步骤七:基于DDPG算法的Critic当前神经网络Q对采取的动作at进行评价,计算出评价值Q(St,at|θQ),其中θQ为Critic当前神经网络的参数;
步骤八:使用均方根误差计算样本的目标期望值和评价值之间的误差值并使用最小批次梯度下降法更新Critic当前神经网络的参数θQ;
步骤九:使用样本策略梯度更新Actor当前神经网络参数θμ,损失梯度J如下式子:
步骤十:将Critic和Actor当前神经网络的参数分别以比例系数τ软复制给Critic和Actor的目标神经网络参数,即:
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
步骤十一:将下一时刻的状态当作当前时刻的状态即:St←St+1,迭代循环步骤一到步骤十一,最终得到一个收敛的Actor当前神经网络,输出神经网络的参数θμ,得到最终的HVAC控制系统模型,然后进行步骤十二;
步骤十二:将当前的状态信息St输入给深度强化学习DDPG算法的Actor当前神经网路,基于最优策略选择一个at,执行动作at,控制HVAC系统的功率输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403130.X/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理