[发明专利]一种用于开发强化学习系统的框架及方法有效

申请号：	200810051406.7	申请日：	2008-11-12
公开（公告）号：	CN101739601A	公开（公告）日：	2010-06-16
发明（设计）人：	孟祥萍;谭万禹;皮玉珍;苑全德;纪秀	申请（专利权）人：	长春工程学院
主分类号：	G06N1/00	分类号：	G06N1/00;G06N3/00
代理公司：	吉林长春新纪元专利代理有限责任公司 22100	代理人：	余岩
地址：	130012 ***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于开发强化学习系统框架方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于开发强化学习系统的框架，其特征在于包括：

一个与外部环境交互的学习者接口部件，是强化学习系统组织其他接口部件以进行学习和决策的模块；

一个表示环境状态的状态接口部件，该接口部件提供了映射方法，用来将环境中的状态映射为系统内部状态供获取最优行动提供状态；

一个通过执行部件执行动作的动作接口部件，用于提供获取动作和执行动作方法，分别用来获取当前动作和执行当前动作；

一个基本的测试环境，该环境为经典的方格世界，用来设定目标、障碍物和学习智能体的初始位置。

2.根据权利要求1所述的用于开发强化学习系统的框架，其特征在于：与外部环境交互的学习者接口部件包括初始化学习、观察环境、获取报酬、进行学习并更新内部状态值、获取最佳动作、执行动作六个可重载功能模块，学习者接口部件默认实现Q学习算法，其中初始化学习模块用来初始化学习因子和折扣因子，成功后返回真值，否则返回假值；观察环境模块默认从测试环境中获取状态信息，通过主体当前的状态结合观察结果，将观察到状态封装到状态接口部件中并返回；获取报酬模块根据当前状态和Q值表计算报酬并返回；学习更新内部状态模块通过获取的报酬、当前状态更新Q值表，成功之后返回真值；获取最佳行动模块通过传入当前状态标志，获取最优的动作，并通过执行动作模块执行。

3.一种用于开发强化学习系统的方法，其特征在于包括下列步骤：

通过与外部环境交互的学习者接口部件组织其它接口部件以进行学习和决策；

学习者接口部件通过状态接口部件获取环境状态，经过学习更新状态值表并做出决策，调用动作接口部件作用于环境，状态接口部件提供了映射功能模块，用来将环境中的状态映射为系统内部状态，作为获取最优行动的重要参考；

通过执行部件执行动作的动作接口部件提供获取动作和执行动作函数模块，分别用来获取当前动作和执行当前动作；

通过基本测试环境设定目标、障碍物和学习智能体的初始位置；

导入开发包，这是使用框架系统进行开发必须做的一步，使用框架系统提供的接口部件需要导入该包；

实现接口，编写策略，其中学习者接口部件为设计机器人学习模块提供一个参考标准，实现该标准的模块更加方便的使用这个框架系统；状态接口部件是用来表示状态的，考虑到不同的机器人在不同的环境下运行导致状态表示方法和状态的数量的不同，通过抽象，提供一个映射模块，将环境状态映射为相应的机器人的内部状态表示；

如果使用默认环境，直接进行运行测试，查看运行效果；如果自定义环境，就要负责编写环境到机器人内部状态的映射规则，然后运行测试；

如果正常，则结束，否则返回实现接口、编写策略的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于长春工程学院，未经长春工程学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】