[发明专利]面向复杂系统中的MAXQ任务图结构的自动发现方法有效
申请号: | 201110367593.1 | 申请日: | 2011-11-18 |
公开(公告)号: | CN102521202B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 王红兵;李文雅 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 南京天翼专利代理有限责任公司32112 | 代理人: | 朱戈胜 |
地址: | 211189 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种面向复杂系统中的MAXQ任务图结构的自动发现方法,步骤包括首先采用Q‑learning探索环境,搜集动作影响的状态变量;然后调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;凝聚算法的过程为在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;(3)得出分层任务图。本方法用学习感知到的各种信息建立聚类模型,通过聚类自动构造出MAXQ的任务图,最终实现MAXQ的自动分层。 | ||
搜索关键词: | 面向 复杂 系统 中的 maxq 任务 结构 自动 发现 方法 | ||
【主权项】:
一种面向复杂系统中的MAXQ任务图结构的自动发现方法,强化学习模型是如下:假设Agent与环境的交互发生在一系列的离散时刻t=0,1,2,…;在每个时刻t,Agent通过观察环境得到状态st∈S;Agent按策略π选择探索动作at∈A并执行;在下一时刻t+1,Agent收到环境给与的强化信号即报酬值rt+1∈R,并达到新状态st+1∈S;根据强化信号rt+1,Agent改进策略π;强化学习的最终目标是寻找到一个最优策略使得Agent获得的状态值即该状态所获得的总报酬Vπ(S)最大或最小,所述其中γ为报酬折扣因子;由于环境的状态转移具有随机性,因此,在策略π的作用下,状态st的值:其中P(st+1|st,at)为环境的状态转移概率;其特征是本自动发现方法的步骤包括:(1)首先采用Q‑learning探索环境,搜集动作影响的状态变量;(2)调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;聚类算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止;其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;(3)得出分层任务图。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110367593.1/,转载请声明来源钻瓜专利网。