[发明专利]节能控制策略学习方法、实现空调节能控制的方法及装置在审
申请号: | 201910091191.X | 申请日: | 2019-01-30 |
公开(公告)号: | CN111505944A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 谭建明;李绍斌;宋德超;陈翀;罗晓宇;邓家璧;王鹏飞;肖文轩;岳冬 | 申请(专利权)人: | 珠海格力电器股份有限公司 |
主分类号: | G05B15/02 | 分类号: | G05B15/02;G05B19/418 |
代理公司: | 天津三元专利商标代理有限责任公司 12203 | 代理人: | 高凤荣 |
地址: | 519070*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 节能 控制 策略 学习方法 实现 空调 方法 装置 | ||
本发明提供了一种节能控制策略学习方法、实现空调节能控制的方法及装置,所述节能控制策略学习方法采用蒙特卡罗方法与强化学习方法相结合,利用蒙特卡罗抽样的方法获得问题的近似解,通过对当前空调环境执行选择的动作,来观察转移的状态和得到的奖励,根据各个状态的回报值的样本平均来进行估计回报值,最终求得最优控制策略。本发明还提供了一种基于节能控制策略学习方法实现空调节能控制的方法。本发明通过对空调运行环境不断的交互学习,寻找最优控制策略,达到节能控制。
技术领域
本发明涉及智能家居技术领域,尤其涉及一种节能控制策略学习方法、实现空调节能控制的方法及装置。
背景技术
伴随着科技的迅速发展,现代人们越来越不满足于现有的生活状况,取而代之的是对更加舒适的生活环境的迫切追求。目前,随着人们生活水平的大幅度提高,空调已成为越来越多家庭必备的家电之一。但是空调耗电量较大,是消费者和生产厂家较为头疼的问题。而且,现有的空调控制方法主要以温度调控为主,而且由于其运行环境较为复杂,对空调的节能调控较难实现。
发明内容
本发明提出了一种节能控制策略学习方法、实现空调节能控制的方法及装置,通过对空调运行环境不断的交互学习,寻找最优控制策略,达到空调节能控制。
本发明的第一方面,提供了一种节能控制策略学习方法,包括:
S11、获取空调的初始状态参数,根据所述初始状态参数确定初始动作值;
S12、执行所述初始动作值对应的控制动作,在控制动作执行后获取所述空调下一状态的目标状态参数和产生的节能奖励值,并更新采样计数值;
S13、根据所述目标状态参数查找预设的奖励表,以获取所述目标状态参数与不同预设动作值所形成的状态动作对的历史回报值,所述奖励表中包括状态参数与不同预设动作值所形成的状态动作对的节能奖励值和历史回报值;
S14、在由所述目标状态参数形成的状态动作对中选取目标动作值,所述目标动作值对应的状态动作对为所述形成的状态动作对中历史回报值最大的状态动作对的概率大于预设值;
S15、执行所述目标动作值对应的控制动作,并在控制动作执行后获取产生的目标节能奖励值;
S16、判断所述采样计数值是否达到预设采样阈值;
若所述采样计数值未达到预设采样阈值,则重复执行S12-S16,否则执行S17;
S17、分别统计由所述目标状态参数形成的每一状态动作对的目标节能奖励值的采样均值,并将得到的采样均值作为对应的状态动作对的估计回报值,并根据所述估计回报值更新所述奖励表。
可选地,在根据所述估计回报值更新所述奖励表之后,所述方法还包括:
S18、更新迭代计数值,并判断所述迭代计数值是否达到预设迭代阈值;
若所述迭代计数值未达到预设迭代阈值,则复位所述采样计数值,并重复执行S12-S17,否则结束本次学习流程。
可选地,所述在由所述目标状态参数形成的状态动作对中选取目标动作值,包括:
采用温柔决策算法在由所述目标状态参数形成的状态动作对中选取所述目标动作值。
可选地,所述根据所述初始状态参数确定初始动作值,包括:
根据所述初始状态参数查找所述奖励表;
若所述奖励表中不存在由所述初始状态参数形成的状态动作对,则将预设的默认动作值作为所述初始动作值。
可选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司,未经珠海格力电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910091191.X/2.html,转载请声明来源钻瓜专利网。