[发明专利]基于深度强化学习无模型自适应混水温度控制系统及方法有效

申请号：	202010818036.6	申请日：	2020-08-14
公开（公告）号：	CN111781840B	公开（公告）日：	2022-08-09
发明（设计）人：	黄文俊;兰琦琦;解泽宇	申请（专利权）人：	哈尔滨商业大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	哈尔滨市伟晨专利代理事务所(普通合伙) 23209	代理人：	陈润明
地址：	150028 黑***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习模型自适应水温控制系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深度强化学习无模型自适应混水温度控制方法，其特征在于：具体方法步骤如下：

步骤一，自定义混水系统的状态空间和动作空间，建立动作网络和价值网络；

步骤二，根据与混水环境交互产生的数据训练动作网络和价值网络，获得混水调温DDPG模型；

步骤三，在混水设备部署该DDPG模型，并与云服务器实时通信，异步更新设备模型参数，实现自适应学习新混水环境；

所述步骤一中，所述的动作网络包括：动作网络、目标动作网络；所述的价值网络包括判断价值网络、目标价值网络混水系统的状态空间和动作空间，所述混水系统的动作空间为调整拨片的转动速度A∈[V_max，V_min]，其中V_max为调温最大转速，V_min＝-V_max；

状态空间S具体为:其中分别表示：混水前冷水端温度、混水前冷水端压强、混水前冷水端水流量、混水前热水端温度、混水前热水端压强、混水前热水端水流量、当前混水后温度，目标温度；

定义回报函数：

其中T_t+1为下一时刻混水后测量温度，为用户设定温度；

所述步骤二中，根据与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]训练动作网络和价值网络，采用软更新算法更新目标动作网络和目标价值网络，从而获得DDPG模型，其中s_t为t时刻的混水系统环境状态，a_t为在t时刻，混水系统环境状态为s_t时采用的调整拨片的转动速度，r_t为状态为s_t时采用的调整拨片的转动速度a_t使状态变为s_t+1时收到的立即奖励，s_t+1为t+1时刻的混水环境状态；