[发明专利]一种基于模型学习的清洁机器人最优目标路径规划方法有效

申请号：	201610171859.8	申请日：	2016-03-24
公开（公告）号：	CN105740644B	公开（公告）日：	2018-04-13
发明（设计）人：	刘全;周谊成;朱斐	申请（专利权）人：	苏州大学
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	苏州市新苏专利事务所有限公司32221	代理人：	朱亦倩
地址：	215000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于模型学习的清洁机器人最优目标路径规划方法，针对目前市场中清洁机器人效率不高的问题，在Dyna‑H算法的基础上，提出一种基于自模拟度量和R‑MAX的Dyna算法，该路径规划方法可驱动机器人优先处理垃圾可能最多的地点，以强化学习框架和Dyna‑H算法为基础，使用R‑MAX算法中的探索机制，在状态间距离的度量方法上，使用自模拟度量改进Dyna‑H中的欧式距离度量方法，从而提高模型的学习效率。本发明的优点是模型学习效率较高，适用确定环境和随机环境，在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型，以规划出到达垃圾最多地点的最优路径。
搜索关键词：	一种基于模型学习清洁机器人最优目标路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于模型学习的清洁机器人最优目标路径规划方法，其特征在于，包括如下步骤：步骤1)初始化模型，设置R(x,u)＝Rmax，f(x,u,x′)＝1，其中R(x,u)为奖赏函数，f(x,u,x′)为状态转移函数，Rmax为最大奖赏值，x、u为状态动作对，x′为执行x、u后转移到的下一个状态；步骤2)初始化环境，设置机器人的起始位置；步骤3)判断当前的探索完全度η，若达到阈值I，转入步骤4)，否则转入步骤(5)；所述探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数，|X|为状态空间大小，|U|为动作空间大小，m为状态被标记为已知前需要被访问的次数；步骤4)使用自模拟度量方法，计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离，选择使距离最大的动作，转入步骤(6)；步骤5)使用ε‑Greedy策略选择动作，转入步骤(6)；步骤6)如果该状态动作对被标记为已知，则放弃该动作，并随机选择一个动作；步骤7)机器人根据动作进行移动，通过传感器判断当前地点是否有垃圾和移动之后的地点；步骤8)通过R‑MAX方法统计不同地点的访问次数和奖赏和，标记已知地点，并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u)；步骤9)机器人行动结束，若到达垃圾堆，转入步骤(10)，否则转入步骤(2)；步骤10)执行值迭代算法；步骤11)若运行时间允许，转入步骤(2)，否则通过Greedy方法计算最优路线。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学，未经苏州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610171859.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模型学习的清洁机器人最优目标路径规划方法有效

专利文献下载