[发明专利]一种用于开发强化学习系统的框架及方法有效
申请号: | 200810051406.7 | 申请日: | 2008-11-12 |
公开(公告)号: | CN101739601A | 公开(公告)日: | 2010-06-16 |
发明(设计)人: | 孟祥萍;谭万禹;皮玉珍;苑全德;纪秀 | 申请(专利权)人: | 长春工程学院 |
主分类号: | G06N1/00 | 分类号: | G06N1/00;G06N3/00 |
代理公司: | 吉林长春新纪元专利代理有限责任公司 22100 | 代理人: | 余岩 |
地址: | 130012 *** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 开发 强化 学习 系统 框架 方法 | ||
技术领域
本发明涉及一种开发强化学习系统的框架及方法。
背景技术
强化学习又称为增强学习,是一种以环境反馈作为输入的、特殊 的、适应环境的机器学习方法。从20世纪80年代末开始,随着对强 化学习的数学基础研究取得突破性进展,对强化学习的研究和应用日 益开展起来,成为机器学习领域的研究热点之一。
强化学习技术通过感知环境状态和从环境中获得不确定奖赏值, 仅通过类似试错法,即可学习动态系统的最优行为策略,因而吸引了 许多研究者。到目前为止,强化学习在许多领域中还是不成熟的,需 要进一步对强化学习进行研究。
强化学习系统可应用于众多的领域,尤其适合开发机器人和具有 自适应的智能装置的学习适应模块。通过学习系统可以使机器人在未 知的动态的环境中执行任务,不需要对环境建立完整的模型(对于其 他的学习系统这是一项非常麻烦的事情)。
传统的要开发基于强化学习的系统都需要从零做起,尚没有一个 通用的框架可以使用,造成大量的重复劳动,且由于没有一个标准可 依,有可能导致结构复杂混乱。
发明内容
本发明所要解决的技术问题是提供一种可移植性高,可以在众多 平台运行,可与其他Agent系统框架结合使用的开发强化学习系统的 框架,大大降低了学习算法编写的复杂度,可使原来研究强化学习需 要做的繁重的程序设计工作得以简化,重复设计部分由本框架来完 成,整个学习的思想蕴涵在框架之中。
本发明还提供了开发强化学习系统的方法。
为解决上述技术问题,本发明提供一种用于开发强化学习系统的 框架,其特征在于包括:
一个与外部环境交互的学习者接口,是强化学习系统用来组织其 它接口以进行学习和决策的模块;
一个表示环境状态的状态接口,该接口提供了映射方法,用来将 环境中的状态映射为系统内部状态供获取最优行动提供状态;
一个通过执行部件执行动作的动作接口,用于提供获取动作和执 行动作方法,分别用来获取当前动作和执行当前动作;
一个基本测试环境,该环境为经典的方格世界,用来设定目标、 障碍物和学习智能体的初始位置。
与外部环境交互的学习者接口包括初始化学习、观察环境、获取 报酬、进行学习并更新内部状态值、获取最佳动作、执行动作六个可 重载方法,学习者默认实现Q学习算法,其中初始化学习方法用来 初始化学习因子和折扣因子,成功后返回真值,否则返回假值;观察 环境方法默认从测试环境中获取状态信息,通过主体当前的状态结合 观察结果,将观察到状态封装到状态接口对象中并返回;获取报酬方 法根据当前状态和Q值表计算报酬并返回;学习更新内部状态方法 通过获取的报酬、当前状态更新Q值表,成功之后返回真值;获取 最佳行动方法通过传入当前状态标志,获取最优的动作,并通过执行 动作方法执行。
一种用于开发强化学习系统的方法,其特征在于包括下列步骤:
通过与外部环境交互的学习者接口组织其它接口以进行学习和 决策;
利用表示环境状态的状态接口提供的映射方法将环境中的状态 映射为系统内部状态供获取最优行动提供状态;
通过执行部件执行动作的动作接口提供获取动作和执行动作方 法,分别用来获取当前动作和执行当前动作;
通过基本测试环境设定目标、障碍物和学习智能体的初始位置。
本发明还提供了基于量子理论的强化学习算法实现作为实例演 示,该学习算法描述如下:
1、初始化:
(1)设置初始的学习参α,δw,δl和折扣因子β,并设t=0;
(2)初始化状态和行为,分别赋予相同的叠加值:
(3)依据所有状态|s(m)和行为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春工程学院,未经长春工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810051406.7/2.html,转载请声明来源钻瓜专利网。