[发明专利]用于清扫设备的覆盖路径生成方法和清扫设备有效
申请号: | 202010930444.0 | 申请日: | 2020-09-07 |
公开(公告)号: | CN112237403B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 徐一新 | 申请(专利权)人: | 安克创新科技股份有限公司 |
主分类号: | A47L11/40 | 分类号: | A47L11/40 |
代理公司: | 北京磐华捷成知识产权代理有限公司 11851 | 代理人: | 卜璐璐 |
地址: | 410205 湖南省长沙市高新开发区尖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 清扫 设备 覆盖 路径 生成 方法 | ||
1.一种用于清扫设备的覆盖路径生成方法,其特征在于,所述方法包括:
获取待清扫区域的地图信息和清扫设备的初始信息,所述初始信息包括所述清扫设备的初始位置信息和姿态信息;
基于所述地图信息和所述初始信息得到清扫状态集合,所述清扫状态集合中的每个清扫状态反映在一个时刻所述待清扫区域的被清扫状况以及所述清扫设备的状况;
基于预定义的奖励机制和初始行动策略计算所述每个清扫状态的奖励值,基于所述奖励值优化所述初始行动策略得到新的行动策略,并基于所述新的行动策略重新计算所述每个清扫状态的奖励值,如此迭代,直到所述每个清扫状态的奖励值相对于上一次迭代时的奖励值的变化小于给定阈值,则迭代结束而得到最优行动策略;
基于所述最优行动策略生成覆盖路径,以用于由所述清扫设备基于所述覆盖路径在所述待清扫区域进行清扫;
其中,所述预定义的奖励机制基于提高清扫效率和/或减少重复清扫的清扫原则定义了所述清扫设备的预设行动集合中每个行动的奖励值;并且
每个清扫状态的奖励值基于与该清扫状态相关联的行动状态的奖励值而确定,其中与该清扫状态相关联的行动状态是指在该清扫状态下执行所述预设行动集合中的行动后达到的清扫状态,每个行动状态的奖励值基于该行动的奖励值以及该行动执行后达到的清扫状态的奖励值而确定。
2.根据权利要求1所述的方法,其特征在于,每个行动状态的奖励值为该行动的奖励值与该行动执行后达到的清扫状态的奖励值之和,每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的线性组合。
3.根据权利要求2所述的方法,其特征在于,每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的期望。
4.根据权利要求3所述的方法,其特征在于,所述预设行动集合中每个行动的初始概率分布为均匀分布。
5.根据权利要求1-4中的任一项所述的方法,其特征在于,所述地图信息包括与所述待清扫区域对应的二维栅格,所述二维栅格中的每个栅格具有相应的标签值,所述每个栅格的标签值指示该栅格对应的区域是否有障碍物或者指示所述清扫设备是否已访问过该栅格对应的区域,所述预设行动集合中至少一个行动的奖励值与执行该行动后到达的栅格的标签值相关。
6.根据权利要求5所述的方法,其特征在于,每个清扫状态包括在一个时刻所述二维栅格中每个栅格的标签值、所述清扫设备在该时刻所处的栅格的位置以及所述清扫设备在该时刻的朝向。
7.根据权利要求6所述的方法,其特征在于,所述预设行动集合包括停止、前进、左转和右转,停止对应的奖励值为零,左转和右转对应的奖励值均为负数,前进对应的奖励值基于前进后到达的栅格的标签值而确定。
8.根据权利要求7所述的方法,其特征在于,当前进后到达的栅格的标签值表示该栅格对应的区域无障碍物且尚未被清扫设备访问过时,前进对应的奖励值为正数;当前进后到达的栅格的标签值表示该栅格对应的区域有障碍物或无障碍物但已被清扫设备访问过时,前进对应的奖励值为负数。
9.根据权利要求1所述的方法,其特征在于,所述最优行动策略的计算基于以下算法中的任一项:蒙特卡罗算法、时间差分算法以及深度强化学习算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安克创新科技股份有限公司,未经安克创新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010930444.0/1.html,转载请声明来源钻瓜专利网。