[发明专利]一种通过自动创建抽象动作控制移动机器人的方法有效
申请号: | 201610238110.0 | 申请日: | 2016-04-18 |
公开(公告)号: | CN105867378B | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 朱斐;伏玉琛;刘全;陈冬火;金海东 | 申请(专利权)人: | 苏州大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 陶海锋 |
地址: | 215123 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种通过自动创建抽象动作控制移动机器人的方法,包括:1)初始化;2)按照Q学习模块的更新公式更新所有的状态‑动作评估值,并保存经验轨迹,去除经验轨迹中的重复状态区间内的状态;3)计算剩余状态的多样性密度值;4)若存在某个状态的多样性密度值达到预设阈值,则进入步骤5);否则重复步骤2)至4);5)选择多样性密度值大于阈值的状态作为子目标点,创建抽象动作模块,设置抽象动作的出发状态、策略和终止条件,将该抽象动作模块加入机器人的可选动作集中,采用更新后的可选动作集控制移动机器人。本发明能够有效地创建抽象动作,机器人可以利用创建的抽象动作进行分层强化学习,从而加速机器人在复杂环境下的学习。 | ||
搜索关键词: | 一种 通过 自动 创建 抽象 动作 控制 移动 机器人 方法 | ||
【主权项】:
1.一种通过自动创建抽象动作控制移动机器人的方法,其特征在于,包括以下步骤:1)初始化模块,设定机器人的运行环境,到达目标的奖赏值,以及用于更新值的步长参数、折扣因子参数;2)机器人按照Q学习模块的更新公式更新所有的状态‑动作评估值Q(s,a),并保存学习得到的经验轨迹,然后去除经验轨迹中的重复状态区间内的状态;3)计算剩余状态的多样性密度值;4)若存在某个状态的多样性密度值达到预设阈值,则进入步骤5);否则重复步骤2)至步骤4);5)选择多样性密度值大于阈值的状态作为子目标点,创建抽象动作模块,设置抽象动作的出发状态、策略和终止条件,将该抽象动作模块加入机器人的可选动作集中,采用更新后的可选动作集控制移动机器人。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610238110.0/,转载请声明来源钻瓜专利网。