[发明专利]一种用于开发强化学习系统的框架及方法有效

专利信息
申请号: 200810051406.7 申请日: 2008-11-12
公开(公告)号: CN101739601A 公开(公告)日: 2010-06-16
发明(设计)人: 孟祥萍;谭万禹;皮玉珍;苑全德;纪秀 申请(专利权)人: 长春工程学院
主分类号: G06N1/00 分类号: G06N1/00;G06N3/00
代理公司: 吉林长春新纪元专利代理有限责任公司 22100 代理人: 余岩
地址: 130012 *** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 开发 强化 学习 系统 框架 方法
【说明书】:

技术领域

发明涉及一种开发强化学习系统的框架及方法。

背景技术

强化学习又称为增强学习,是一种以环境反馈作为输入的、特殊 的、适应环境的机器学习方法。从20世纪80年代末开始,随着对强 化学习的数学基础研究取得突破性进展,对强化学习的研究和应用日 益开展起来,成为机器学习领域的研究热点之一。

强化学习技术通过感知环境状态和从环境中获得不确定奖赏值, 仅通过类似试错法,即可学习动态系统的最优行为策略,因而吸引了 许多研究者。到目前为止,强化学习在许多领域中还是不成熟的,需 要进一步对强化学习进行研究。

强化学习系统可应用于众多的领域,尤其适合开发机器人和具有 自适应的智能装置的学习适应模块。通过学习系统可以使机器人在未 知的动态的环境中执行任务,不需要对环境建立完整的模型(对于其 他的学习系统这是一项非常麻烦的事情)。

传统的要开发基于强化学习的系统都需要从零做起,尚没有一个 通用的框架可以使用,造成大量的重复劳动,且由于没有一个标准可 依,有可能导致结构复杂混乱。

发明内容

本发明所要解决的技术问题是提供一种可移植性高,可以在众多 平台运行,可与其他Agent系统框架结合使用的开发强化学习系统的 框架,大大降低了学习算法编写的复杂度,可使原来研究强化学习需 要做的繁重的程序设计工作得以简化,重复设计部分由本框架来完 成,整个学习的思想蕴涵在框架之中。

本发明还提供了开发强化学习系统的方法。

为解决上述技术问题,本发明提供一种用于开发强化学习系统的 框架,其特征在于包括:

一个与外部环境交互的学习者接口,是强化学习系统用来组织其 它接口以进行学习和决策的模块;

一个表示环境状态的状态接口,该接口提供了映射方法,用来将 环境中的状态映射为系统内部状态供获取最优行动提供状态;

一个通过执行部件执行动作的动作接口,用于提供获取动作和执 行动作方法,分别用来获取当前动作和执行当前动作;

一个基本测试环境,该环境为经典的方格世界,用来设定目标、 障碍物和学习智能体的初始位置。

与外部环境交互的学习者接口包括初始化学习、观察环境、获取 报酬、进行学习并更新内部状态值、获取最佳动作、执行动作六个可 重载方法,学习者默认实现Q学习算法,其中初始化学习方法用来 初始化学习因子和折扣因子,成功后返回真值,否则返回假值;观察 环境方法默认从测试环境中获取状态信息,通过主体当前的状态结合 观察结果,将观察到状态封装到状态接口对象中并返回;获取报酬方 法根据当前状态和Q值表计算报酬并返回;学习更新内部状态方法 通过获取的报酬、当前状态更新Q值表,成功之后返回真值;获取 最佳行动方法通过传入当前状态标志,获取最优的动作,并通过执行 动作方法执行。

一种用于开发强化学习系统的方法,其特征在于包括下列步骤:

通过与外部环境交互的学习者接口组织其它接口以进行学习和 决策;

利用表示环境状态的状态接口提供的映射方法将环境中的状态 映射为系统内部状态供获取最优行动提供状态;

通过执行部件执行动作的动作接口提供获取动作和执行动作方 法,分别用来获取当前动作和执行当前动作;

通过基本测试环境设定目标、障碍物和学习智能体的初始位置。

本发明还提供了基于量子理论的强化学习算法实现作为实例演 示,该学习算法描述如下:

1、初始化:

(1)设置初始的学习参α,δw,δl和折扣因子β,并设t=0;

(2)初始化状态和行为,分别赋予相同的叠加值:

   

(3)依据所有状态|s(m)和行为

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春工程学院,未经长春工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810051406.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top