[发明专利]面向复杂系统中的MAXQ任务图结构的自动发现方法有效

专利信息
申请号: 201110367593.1 申请日: 2011-11-18
公开(公告)号: CN102521202B 公开(公告)日: 2017-05-24
发明(设计)人: 王红兵;李文雅 申请(专利权)人: 东南大学
主分类号: G06F15/18 分类号: G06F15/18
代理公司: 南京天翼专利代理有限责任公司32112 代理人: 朱戈胜
地址: 211189 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种面向复杂系统中的MAXQ任务图结构的自动发现方法,步骤包括首先采用Q‑learning探索环境,搜集动作影响的状态变量;然后调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;凝聚算法的过程为在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;(3)得出分层任务图。本方法用学习感知到的各种信息建立聚类模型,通过聚类自动构造出MAXQ的任务图,最终实现MAXQ的自动分层。
搜索关键词: 面向 复杂 系统 中的 maxq 任务 结构 自动 发现 方法
【主权项】:
一种面向复杂系统中的MAXQ任务图结构的自动发现方法,强化学习模型是如下:假设Agent与环境的交互发生在一系列的离散时刻t=0,1,2,…;在每个时刻t,Agent通过观察环境得到状态st∈S;Agent按策略π选择探索动作at∈A并执行;在下一时刻t+1,Agent收到环境给与的强化信号即报酬值rt+1∈R,并达到新状态st+1∈S;根据强化信号rt+1,Agent改进策略π;强化学习的最终目标是寻找到一个最优策略使得Agent获得的状态值即该状态所获得的总报酬Vπ(S)最大或最小,所述其中γ为报酬折扣因子;由于环境的状态转移具有随机性,因此,在策略π的作用下,状态st的值:其中P(st+1|st,at)为环境的状态转移概率;其特征是本自动发现方法的步骤包括:(1)首先采用Q‑learning探索环境,搜集动作影响的状态变量;(2)调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;聚类算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止;其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;(3)得出分层任务图。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110367593.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top