[发明专利]节能控制策略学习方法、实现空调节能控制的方法及装置在审
申请号: | 201910091191.X | 申请日: | 2019-01-30 |
公开(公告)号: | CN111505944A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 谭建明;李绍斌;宋德超;陈翀;罗晓宇;邓家璧;王鹏飞;肖文轩;岳冬 | 申请(专利权)人: | 珠海格力电器股份有限公司 |
主分类号: | G05B15/02 | 分类号: | G05B15/02;G05B19/418 |
代理公司: | 天津三元专利商标代理有限责任公司 12203 | 代理人: | 高凤荣 |
地址: | 519070*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 节能 控制 策略 学习方法 实现 空调 方法 装置 | ||
1.一种节能控制策略学习方法,其特征在于,包括:
S11、获取空调的初始状态参数,根据所述初始状态参数确定初始动作值;
S12、执行所述初始动作值对应的控制动作,在控制动作执行后获取所述空调下一状态的目标状态参数和产生的节能奖励值,并更新采样计数值;
S13、根据所述目标状态参数查找预设的奖励表,以获取所述目标状态参数与不同预设动作值所形成的状态动作对的历史回报值,所述奖励表中包括目标状态参数与不同预设动作值所形成的状态动作对的节能奖励值和历史回报值;
S14、在由所述目标状态参数形成的状态动作对中选取目标动作值,所述目标动作值对应的状态动作对为所述形成的状态动作对中历史回报值最大的状态动作对的概率大于预设值;
S15、执行所述目标动作值对应的控制动作,并在控制动作执行后获取产生的目标节能奖励值;
S16、判断所述采样计数值是否达到预设采样阈值;
若所述采样计数值未达到预设采样阈值,则重复执行S12-S16,否则执行S17;
S17、分别统计由所述目标状态参数形成的每一状态动作对的目标节能奖励值的采样均值,并将得到的采样均值作为对应的状态动作对的估计回报值,并根据所述估计回报值更新所述奖励表。
2.根据权利要求1所述的方法,其特征在于,在根据所述估计回报值更新所述奖励表之后,所述方法还包括:
S18、更新迭代计数值,并判断所述迭代计数值是否达到预设迭代阈值;
若所述迭代计数值未达到预设迭代阈值,则复位所述采样计数值,并重复执行S12-S17,否则结束本次学习流程。
3.根据权利要求1所述的方法,其特征在于,所述在由所述目标状态参数形成的状态动作对中选取目标动作值,包括:
采用温柔决策算法在由所述目标状态参数形成的状态动作对中选取所述目标动作值。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述初始状态参数确定初始动作值,包括:
根据所述初始状态参数查找所述奖励表;
若所述奖励表中不存在由所述初始状态参数形成的状态动作对,则将预设的默认动作值作为所述初始动作值。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述奖励表中存在由所述初始状态参数形成的状态动作对,则获取所述初始状态参数与不同预设动作值所形成的状态动作对的历史回报值;
选取由所述初始状态参数形成的状态动作对中历史回报值最大的状态动作对的动作值,将选取的动作值作为所述初始动作值。
6.一种基于如权利要求1-5任一项所述的节能控制策略学习方法实现空调节能控制的方法,其特征在于,包括:
获取空调的当前状态参数;
根据所述当前状态参数查找利用所述节能控制策略学习方法学习到的奖励表,以获取所述当前状态参数与不同预设动作值所形成的状态动作对的历史回报值;
选取由所述当前状态参数形成的状态动作对中历史回报值最大的状态动作对的动作值,将选取的动作值作为最优动作值;
执行所述最优动作值对应的控制动作,实现空调节能控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司,未经珠海格力电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910091191.X/1.html,转载请声明来源钻瓜专利网。