[发明专利]基于状态表示学习的深度强化学习方法及装置在审
申请号: | 202010441544.7 | 申请日: | 2020-05-22 |
公开(公告)号: | CN113705805A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 李厚强;周文罡;赵鉴 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 状态 表示 学习 深度 强化 学习方法 装置 | ||
本发明提供了一种基于状态表示学习的深度强化学习方法及装置,依据当前状态、近状态、以及远状态,计算相邻状态一致性损失函数值,并计算强化学习损失函数值,基于相邻状态一致性损失函数值和强化学习损失函数值,计算联合函数值,基于联合函数值对神经网络模型进行训练,得到新的神经网络模型,并在计数器的计数结果不小于第二阈值时,将当前的神经网络模型作为目标网络模型。可见,相邻状态一致性损失函数值用于指示近状态与当前状态之间的差异小于近状态与状态之间的差异,在强化学习损失函数值的基础上引入相邻状态一致性损失函数值,得到联合函数值,依据联合函数值对神经网络模型进行训练,从而提高神经网络模型的性能和学习效率。
技术领域
本发明涉及强化学习领域,尤其涉及一种基于状态表示学习的深度强化学习方法及装置。
背景技术
随着深度神经网络的发展,深度强化学习技术逐渐能够解决常见的连续决策问题,并在“雅达利(Atari)”游戏、连续控制和机器控制等领域有了广泛的应用。很多传统的强化学习算法问题可以借助于深度强化学习来实现和解决。例如,通过深度强化学习对强化学习中的动作和状态进行映射,从而解决强化学习的动作空间和状态空间离散的问题。
现有技术中,深度强化学习的过程为:将神经网络模型的作用对象当前的状态输入该神经网络模型中,依据神经网络模型输出的动作与该作用对象进行交互,并计算强化学习损失函数值,以强化学习损失函数值对神经网络模型对应的参数进行约束。现有的深度强化学习的神经网络模型性能较差,学习效率较低。
发明内容
发明人在研究过程中发现,深度强化学习的过程中,相邻状态一般差异比较小,间隔状态差异比较大,这种特点能够影响深度强化学习对应的神经网络模型的性能,基于此,本发明提供了一种基于状态表示学习的深度强化学习方法及装置,目的在于解决现有的深度强化学习的神经网络模型性能较差,学习效率较低的问题。
为了实现上述目的,本发明提供了以下技术方案:
一种基于状态表示学习的深度强化学习方法,包括:
判断预设的计数器的计数结果是否大于第一阈值;
若预设的计数器的计数结果大于第一阈值,则依据当前状态、近状态、以及远状态,计算相邻状态一致性损失函数值;其中,所述当前状态为神经网络模型的作用对象当前的状态,所述近状态为通过将所述神经网络模型输出的当前状态对应的动作,作用于所述作用对象得到的所述当前状态的下一状态,所述远状态位于所述当前状态之前,且与所述当前状态之间间隔N个状态,所述N为自然数,所述N与所述第一阈值存在关联关系,所述相邻状态一致性函数值用于指示所述近状态与所述当前状态之间的差异小于所述近状态与所述远状态之间的差异;
依据所述当前状态、所述当前状态对应的动作、奖励值以及所述近状态,计算强化学习损失函数值,并依据所述相邻状态一致性损失函数值和所述强化学习损失函数值,计算联合损失函数值,其中,所述奖励值为将所述神经网络模型输出的当前状态对应的动作,作用于所述作用对象后,所述作用对象反馈的数值;
依据所述联合损失函数值,对所述神经网络模型进行训练,得到新的神经网络模型;
判断所述计数器的计数结果是否大于第二阈值;其中,所述第二阈值大于所述第一阈值;
若所述计数器的计数结果不大于第二阈值,则将所述近状态作为新的当前状态,并将所述远状态的下一状态作为新的远状态;
将所述新的神经网络模型依据所述新的当前状态输出的所述新的当前状态对应的动作,作用于所述作用环境,得到新的近状态、以及新的奖励值;
对所述计数器的计数加一;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010441544.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:干燥器组件及制冷设备
- 下一篇:一种告警根因定位方法及装置