[发明专利]一种基于深度强化学习的智能清洁机器人路径规划方法在审
申请号: | 202010651117.1 | 申请日: | 2020-07-08 |
公开(公告)号: | CN112327821A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 杜林 | 申请(专利权)人: | 东莞市均谊视觉科技有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 郭智 |
地址: | 523000 广东省东莞市松*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 清洁 机器人 路径 规划 方法 | ||
1.一种基于深度强化学习的智能清洁机器人路径规划方法,其特征在于,包含以下步骤:
S1、初始化策略神经网络、评判网络、目标策略网络、目标评判网络、网络参数、经验缓存池以及清洁机器人;
S2、清洁机器人通过传感器感知周围环境,融合传感器数据,判断机器人的地面情况、垃圾分布情况、周围是否有无障碍物以及清洁机器人自身状态;
S3、策略神经网络接受周围环境的传感器数据,传感器数据输入策略神经网络后,策略神经网络通过计算选取执行行为策略;
S4、清洁机器人执行行为策略,将行为策略转换为驱动机构可识别的指令,并将该指令输入至驱动机构;
S5、上位机发送指令后,下位机接收该指令并执行相应的动作后完成清洁任务和路径规划,下位机执行完成得到奖励rt和下一状态st+1;
S6、判断此时清洁机器人是否到达垃圾站以及行动时间是否结束,若符合上述情况则继续执行步骤S1至步骤S6,否则对步骤S1至步骤S6进行经验总结,并执行步骤S7;
S7、将经验存储存入经验缓存池中,使用经验缓存池使得状态间相互独立,来消除输入经验间存在的很强的相关性;
S8、从经验缓存池随机采样N个经验,计算策略价值算法的损失函数值和策略决策算法损失函数值。
S9、通过目标策略网络以及评判网络计算当前策略期望回报,估计每个状态策略对的累积回报。
S10、采用梯度下降法训练神经网络,目标值网络的权重系数使用随机梯度下降算法,进行更新以最小化损失函数,计算梯度更新目标策略网络以及策略神经网络的参数。
2.根据权利要求1所述的一种基于深度强化学习的智能清洁机器人路径规划方法,其特征在于,步骤S2中的传感器可以是陀螺仪、激光雷达、摄像头、超声波、红外中的一种或多种。
3.根据权利要求1所述的一种基于深度强化学习的智能清洁机器人路径规划方法,其特征在于,步骤S3中行为策略包括清扫行为策略和运动行为策略,清扫行为策略包括洗、拖、扫以及吸的行为,运动行为策略包括前进、后退、左转、右转以及刹车的行为。
4.根据权利要求1所述的一种基于深度强化学习的智能清洁机器人路径规划方法,其特征在于,步骤S4中驱动机构包括运动电机、滚刷电机、边刷电机、滚刷电机、盘刷电机、拖布驱动电机、吸尘电机中的一种。
5.根据权利要求1所述的一种基于深度强化学习的智能清洁机器人路径规划方法,其特征在于,步骤S5中奖励奖励rt的大小与收集垃圾数量、清扫范围、避障、电量等因素正相关。
6.根据权利要求1所述的一种基于深度强化学习的智能清洁机器人路径规划方法,其特征在于,步骤S8中损失函数评估指标为采用均方误差。
7.根据权利要求1所述的一种基于深度强化学习的智能清洁机器人路径规划方法,其特征在于,步骤S10中随机梯度下降采用Adam优化器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市均谊视觉科技有限公司,未经东莞市均谊视觉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010651117.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于CSO优化神经网络的变压器损耗计算方法
- 下一篇:防爆泛光灯