[发明专利]基于适合度轨迹的神经网络强化学习方法及系统在审
申请号: | 201710899730.3 | 申请日: | 2017-09-28 |
公开(公告)号: | CN109583582A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 王婷婷 | 申请(专利权)人: | 中国石油化工股份有限公司;中国石油化工股份有限公司石油物探技术研究院 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京思创毕升专利事务所 11218 | 代理人: | 孙向民;廉莉莉 |
地址: | 100728 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 神经网络 适合度 环境状态 回报 结束条件 连续状态空间 泛化性能 访问路径 函数逼近 状态动作 初始化 检测 算法 收敛 保存 返回 更新 | ||
本发明公开了一种基于适合度轨迹的神经网络强化学习方法及系统。该神经网络强化学习方法包括:初始化神经网络权值,强化学习参数及适合度轨迹;获取当前环境状态和立即回报值;计算强化学习的Q值函数;获取适合度轨迹和更新神经网络权值;检测新的环境状态和立即回报值;新的环境状态和立即回报值满足结束条件,强化学习结束,不满足结束条件,返回重新检测获取当前环境状态和立即回报值。其优点在于:解决了强化学习面对连续状态空间的函数逼近问题,同时引进的适合度轨迹,对经历过的状态动作正确的访问路径的有效保存,提高神经网络的泛化性能,最后加快算法的收敛速度。
技术领域
本发明涉及机器学习技术领域,更具体地,涉及一种基于适合度轨迹的神经网络强化学习方法及系统。
背景技术
强化学习在人工智能领域包括工业生产、电梯调度、路径规划方面越多的得到运用,可以用来解决随机性或不确定性动态系统最优化这些决策类问题,随着强化学习的发展及各方面应用的扩展,需要的结合的技术和算法也越来越多,此时经典的查表法就不能满足需求。因为传统的强化学习算法需要把state-action对应的值函数保存在表中,以进行查询,但是计算机的存储有限,在面对连续状态空间的问题值表法就无法存放这种大规模数量的值函数。
面对上述难题,较常用的方式是将连续空间分散成单个可分的状态集,使其能够有限的分散成有限的状态,然后使用经典的强化学习算法,但是这样会引起很多问题,例如离散化后的状态可能不再具有马尔科夫性质,引入无法直接观测到的隐含状态,同时可能导致强化学习不再具有马尔科夫性,这时候函数策略无法收敛,强化学习的学习能力变差。
同时神经网络逼近函数值的快慢以及是否是全局极值都是要解决的问题,现有的一些算法容易让强化学习陷入局部极值,无法得到最优决策,导致学习失败。
因此,有必要开发一种能够在无标记、无导师的情况下,有效率的得到最优决策序列的基于适合度轨迹的神经网络强化学习方法及系统。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种基于适合度轨迹的神经网络强化学习方法及系统,其能够通过径向基函数神经网络解决了强化学习面对连续状态空间的函数逼近问题,有效率的得到最优决策序列,实现算法目标。
根据本发明的一方面,提出了一种基于适合度轨迹的神经网络强化学习方法,所述神经网络强化学习方法包括:
初始化神经网络权值,强化学习参数及适合度轨迹;
检测获取当前环境状态和立即回报值;
计算强化学习的Q值函数;
基于所述Q值函数,获取所述适合度轨迹和更新所述神经网络权值;
检测新的环境状态和立即回报值;
所述新的环境状态和立即回报值满足结束条件,强化学习结束,不满足结束条件,返回重新检测获取所述当前环境状态和立即回报值。
优选地,所述计算强化学习的Q值函数包括:
基于贪心策略,选择动作at施加到所述当前环境状态中;
基于隐含层的高斯核函数,计算强化学习的Q值函数。
优选地,所述Q值函数为:
式中,wo=[w1,w2...w25]T,为隐含层与输出层之间的权值矩阵;
为一个输出结点的激活函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油化工股份有限公司;中国石油化工股份有限公司石油物探技术研究院,未经中国石油化工股份有限公司;中国石油化工股份有限公司石油物探技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710899730.3/2.html,转载请声明来源钻瓜专利网。