[发明专利]基于多步预测深度强化学习算法的HVAC控制系统有效

申请号：	202110403130.X	申请日：	2021-04-14
公开（公告）号：	CN113112077B	公开（公告）日：	2022-06-10
发明（设计）人：	任密蜂;刘祥飞;杨之乐;张建华	申请（专利权）人：	太原理工大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/06;H02J3/00;G06N3/04;G06N3/08
代理公司：	太原市科瑞达专利代理有限公司 14101	代理人：	江淑兰
地址：	030024 山西***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于预测深度强化学习算法 hvac 控制系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多步预测深度强化学习算法的HVAC控制系统，其特征在于：包括室外环境温度的多步预测和室内温度的实时控制两个阶段，其中室外环境温度的预测阶段包括以下步骤：

步骤一：根据室外环境的实际数据点，选取连续的i个时刻的室外环境温度X＝[T₁,…,T_i]作为多步温度预测模型的输入，以h＝[h_i+1,…,h_i+n]作为模型的真实输出，n为多步预测的步数；

步骤二：对采集到的数据进行预处理，对异常的数据进行修正，并将时间序列的数据转换为监督序列的数据；

步骤三：将输入量输入到基于广义互熵损失函数的长短期记忆神经网络中，利用长短期记忆神经网络的遗忘门、输入门和输出门对输入量进行遗忘、记忆和学习；基于广义互熵损失函数的长短期记忆神经网络的非线性回归模型描述如下：

1)将输入量X＝[T₁,…,T_t]输入到长短期记忆神经网络的第一个block中，遗忘门通过sigmoid函数决定当前时刻的输入信息X和上一时刻的输出信息h_t-1有多少能被当前block保留，即遗忘门的输出为f_t＝σ(w_f[h_t-1,X_t]+b_f)，其中w_f和b_f为神经网络的权重和偏置值，sigmoid函数用σ表示；

2)输入门决定需要更新的信息，首先通过σ函数决定更新后的信息i_t＝σ(w_i[h_t-1,X_t]+b_i)，其次通过tanh函数产生新的候选值最后当前block的候选值c_t将由遗忘门的输出、输入门的输出、新的候选值和上个block的候选值共同决定，即：其中w_i，w_c，b_i和b_c为输入门神经网络的参数值；

3)输出门得到模型的输出，首先通过σ函数得到一个初始的输出o_t＝σ(w_o[h_t-1,X_t]+b_o)，其次将2)中得到候选值信息c_t通过激活函数tanh缩放到-1和1之间，最终得到模型的输出h_t＝o_t*tanh(c_t)，其中w_o，b_o为输出门神经网络的参数；

4)基于广义互熵损失函数计算真实值Y_t与预测值h_t之间的误差，如下面的式子：

G_α,β(0)为零均值广义高斯密度函数，为预测值和真实值的样本估计，N是样本的数量，Γ是伽马函数，α＞0是形状参数，β＞0是带宽参数，进行多次迭代训练，通过最小批次梯度下降法更新神经网络的权重w和偏置值b，使真实值与预测值之间的误差最小；

步骤四：最终基于广义互熵损失函数的长短期记忆神经网络，得到前i个时刻的室外环境温度到未来n个时刻的室外环境温度的非线性映射模型；

室内温度的实时控制包括以下步骤：

步骤一：采集到连续i个时刻的室外环境温度X＝[T₁,…,T_i]，基于广义互熵损失函数的长短期记忆神经网络，获得未来连续n个时刻的室外环境温度h＝[h_i+1,…,h_i+n]；获取当前时刻的电网电价ρ_t和室内温度T_tⁱⁿ等相关信息，将h、ρ_t和T_tⁱⁿ作为环境信息，即：S_t＝{h,ρ_t,T_tⁱⁿ}；

步骤二：将当前的状态信息S_t输入给深度强化学习DDPG算法的Actor当前神经网路，基于当前的策略μ(S_t|θ^μ)和高斯噪声去选择一个动作a_t∈[P_min,P_max]，高斯噪声是为了增加动作的探索率，会随着迭代循环次数的增加而减小，θ^μ是Actor当前神经网路参数，P_min和P_max分别为HVAC系统的最小和最大输出功率；

步骤三：执行动作a_t控制空调的输出功率，HVAC系统的功率的输出会改变室内的环境温度，如：然后获得及时的奖励r_t，并且达到下一个状态S_t+1，η_HVAC、A分别为HVAC的惯性系数、热转换效率、整体导热率；

步骤四：将(S_t,a_t,r_t,S_t+1)储存到一个经验池buff-C中；

步骤五：如果经验池buff-C的数据量大于采样数量M，则从经验池buff-N中随机采取M个样本(S_i,a_i,r_i,S_i+1)，i＝1,2,…,M，r_i为样本i的奖励，进行下面步骤；否则直接进行步骤十一；

步骤七：基于DDPG算法的Critic当前神经网络Q对采取的动作a_t进行评价，计算出评价值Q(S_t,a_t|θ^Q)，其中θ^Q为Critic当前神经网络的参数；

步骤八：使用均方根误差计算样本的目标期望值和评价值之间的误差值并使用最小批次梯度下降法更新Critic当前神经网络的参数θ^Q；

步骤九：使用样本策略梯度更新Actor当前神经网络参数θ^μ，损失梯度J如下式子：

步骤十：将Critic和Actor当前神经网络的参数分别以比例系数τ软复制给Critic和Actor的目标神经网络参数，即：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

步骤十一：将下一时刻的状态当作当前时刻的状态即：S_t←S_t+1，迭代循环步骤一到步骤十一，最终得到一个收敛的Actor当前神经网络，输出神经网络的参数θ^μ，得到最终的HVAC控制系统模型，然后进行步骤十二；

步骤十二：将当前的状态信息S_t输入给深度强化学习DDPG算法的Actor当前神经网路，基于最优策略选择一个a_t，执行动作a_t，控制HVAC系统的功率输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太原理工大学，未经太原理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110403130.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种建筑垃圾制备再生建筑材料的设备及生产方法
下一篇：海洋生物体中主要重金属元素的测定方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多步预测深度强化学习算法的HVAC控制系统有效

专利文献下载