[发明专利]一种基于模型学习的清洁机器人最优目标路径规划方法有效

专利信息
申请号: 201610171859.8 申请日: 2016-03-24
公开(公告)号: CN105740644B 公开(公告)日: 2018-04-13
发明(设计)人: 刘全;周谊成;朱斐 申请(专利权)人: 苏州大学
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 苏州市新苏专利事务所有限公司32221 代理人: 朱亦倩
地址: 215000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于模型学习的清洁机器人最优目标路径规划方法,针对目前市场中清洁机器人效率不高的问题,在Dyna‑H算法的基础上,提出一种基于自模拟度量和R‑MAX的Dyna算法,该路径规划方法可驱动机器人优先处理垃圾可能最多的地点,以强化学习框架和Dyna‑H算法为基础,使用R‑MAX算法中的探索机制,在状态间距离的度量方法上,使用自模拟度量改进Dyna‑H中的欧式距离度量方法,从而提高模型的学习效率。本发明的优点是模型学习效率较高,适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到达垃圾最多地点的最优路径。
搜索关键词: 一种 基于 模型 学习 清洁 机器人 最优 目标 路径 规划 方法
【主权项】:
一种基于模型学习的清洁机器人最优目标路径规划方法,其特征在于,包括如下步骤:步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;步骤2)初始化环境,设置机器人的起始位置;步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);所述探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为已知前需要被访问的次数;步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);步骤5)使用ε‑Greedy策略选择动作,转入步骤(6);步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点;步骤8)通过R‑MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u);步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);步骤10)执行值迭代算法;步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610171859.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top