[发明专利]一种用于开发强化学习系统的框架及方法有效

申请号：	200810051406.7	申请日：	2008-11-12
公开（公告）号：	CN101739601A	公开（公告）日：	2010-06-16
发明（设计）人：	孟祥萍;谭万禹;皮玉珍;苑全德;纪秀	申请（专利权）人：	长春工程学院
主分类号：	G06N1/00	分类号：	G06N1/00;G06N3/00
代理公司：	吉林长春新纪元专利代理有限责任公司 22100	代理人：	余岩
地址：	130012 ***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于开发强化学习系统框架方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种开发强化学习系统的框架及方法。

背景技术

强化学习又称为增强学习，是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。从20世纪80年代末开始，随着对强化学习的数学基础研究取得突破性进展，对强化学习的研究和应用日益开展起来，成为机器学习领域的研究热点之一。

强化学习技术通过感知环境状态和从环境中获得不确定奖赏值，仅通过类似试错法，即可学习动态系统的最优行为策略，因而吸引了许多研究者。到目前为止，强化学习在许多领域中还是不成熟的，需要进一步对强化学习进行研究。

强化学习系统可应用于众多的领域，尤其适合开发机器人和具有自适应的智能装置的学习适应模块。通过学习系统可以使机器人在未知的动态的环境中执行任务，不需要对环境建立完整的模型(对于其他的学习系统这是一项非常麻烦的事情)。

传统的要开发基于强化学习的系统都需要从零做起，尚没有一个通用的框架可以使用，造成大量的重复劳动，且由于没有一个标准可依，有可能导致结构复杂混乱。

发明内容

本发明所要解决的技术问题是提供一种可移植性高，可以在众多平台运行，可与其他Agent系统框架结合使用的开发强化学习系统的框架，大大降低了学习算法编写的复杂度，可使原来研究强化学习需要做的繁重的程序设计工作得以简化，重复设计部分由本框架来完成，整个学习的思想蕴涵在框架之中。

本发明还提供了开发强化学习系统的方法。

为解决上述技术问题，本发明提供一种用于开发强化学习系统的框架，其特征在于包括：

一个与外部环境交互的学习者接口，是强化学习系统用来组织其它接口以进行学习和决策的模块；

一个表示环境状态的状态接口，该接口提供了映射方法，用来将环境中的状态映射为系统内部状态供获取最优行动提供状态；

一个通过执行部件执行动作的动作接口，用于提供获取动作和执行动作方法，分别用来获取当前动作和执行当前动作；

一个基本测试环境，该环境为经典的方格世界，用来设定目标、障碍物和学习智能体的初始位置。

与外部环境交互的学习者接口包括初始化学习、观察环境、获取报酬、进行学习并更新内部状态值、获取最佳动作、执行动作六个可重载方法，学习者默认实现Q学习算法，其中初始化学习方法用来初始化学习因子和折扣因子，成功后返回真值，否则返回假值；观察环境方法默认从测试环境中获取状态信息，通过主体当前的状态结合观察结果，将观察到状态封装到状态接口对象中并返回；获取报酬方法根据当前状态和Q值表计算报酬并返回；学习更新内部状态方法通过获取的报酬、当前状态更新Q值表，成功之后返回真值；获取最佳行动方法通过传入当前状态标志，获取最优的动作，并通过执行动作方法执行。

一种用于开发强化学习系统的方法，其特征在于包括下列步骤：

通过与外部环境交互的学习者接口组织其它接口以进行学习和决策；

利用表示环境状态的状态接口提供的映射方法将环境中的状态映射为系统内部状态供获取最优行动提供状态；

通过执行部件执行动作的动作接口提供获取动作和执行动作方法，分别用来获取当前动作和执行当前动作；

通过基本测试环境设定目标、障碍物和学习智能体的初始位置。

本发明还提供了基于量子理论的强化学习算法实现作为实例演示，该学习算法描述如下：

1、初始化：

(1)设置初始的学习参α，δ_w，δ_l和折扣因子β，并设t＝0；

(2)初始化状态和行为，分别赋予相同的叠加值：

(3)依据所有状态|s^(m)和行为

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载