[发明专利]一种基于深度强化学习的仓储系统多机器人路径规划方法有效
申请号: | 202110535242.0 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113110509B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 许运鸿;李衍杰;吕少华;刘奇;陈美玲;赵威龙;刘悦丞;高建琦 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 覃迎峰 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 仓储 系统 机器人 路径 规划 方法 | ||
1.一种基于深度强化学习的仓储系统多机器人路径规划方法,其特征在于,包括如下步骤:
步骤S1:定义多机器人路径规划问题中的节点、状态、动作、奖励回报;
步骤S2:选择子目标点,中央控制器计算每个机器人的状态;
步骤S3:基于深度强化学习方法,设计分布式多机器人路径规划器;
步骤S4:计算损失函数,对网络参数进行更新;
步骤S5:将训练好的模型应用于多机器人路径规划;
在所述步骤S2中,选择子目标点的方法为:计算视野范围内每个点到机器人目标点的曼哈顿距离d,拥挤程度定义为当前区域内机器人的数量,计算视野范围内每个点所在区域的拥挤程度w,设定一个常数α,选取f=αw+d最小的点,作为子目标点;如果真正的目标点在视野范围内,则不需要设置子目标点,如果真正的目标点不在视野范围内,则根据前述方法找到一个子目标点;只有在距离子目标点的距离小于阈值T时,才重新设置子目标点;
在所述步骤S1中,中央控制器对仓储系统进行建模,多机器人路径规划问题中的地图由规则摆放货架和能够行驶的走廊组成,机器人从给定的起始点出发,前往目标货架,其目标点位于货架正下方,通过抬起整个货架达到运输拣货的目的;将地图栅格化处理,并划分成规则的多个不同区域;定义机器人的状态为由3个通道和1个二维向量组成,各个通道的规模由预设的可视范围v决定,大小为v×v的矩阵,表示当前机器人附近v×v的网格中;机器人的动作空间定义为集合A={au,ad,al,ar,as},分别代表向上移动一个单位,向下移动一个单位,向左移动一个单位,向右移动一个单位和停在当前位置,机器人采取的动作a∈A;
在所述步骤S1中,3个通道和1个二维向量包括:
第一个通道表示可视范围内其他机器人的位置,如果周围v×v的网格位置中有机器人存在,则将其对应位置在矩阵中置为1,其他位置置为0;
第二个通道表示可视范围内障碍物的位置,如果周围v×v的网格位置中有障碍物存在,则将障碍物的位置在矩阵中置为1,其他位置置为0;
第三个通道表示视野范围内的子目标点的位置,子目标点是处于机器人当前视野范围内的;
一个二维向量由x方向上机器人和目标点的距离dx和y方向上机器人和目标点的距离dy组成,指示着目标点的位置;
在所述步骤S1中,机器人的奖励函数定义根据采取动作后的情况不同而有所区别,机器人的奖励函数定义为:
其中,dt代表在t时刻机器人与目标点的距离,dt-1代表机器人在t-1时刻机器人与目标点的距离,xsub代表子目标的x轴坐标,x代表机器人的x轴坐标,ysub代表子目标的y轴坐标,y代表机器人的y轴坐标,T代表阈值;采取动作a后,如果机器人离目标点的距离更近,则给予奖励rn,如果机器人离目标点的距离更远,则给予奖励rf,如果机器人停留在原地,则给予奖励rs,如果机器人和其他单位发生碰撞,则给予奖励rc,当前机器人位置与子目标点的曼哈顿距离小于阈值T,给予机器人奖励rsub;如果机器人到达其目标点,则给予奖励rg;
所述步骤S3包括如下步骤:
步骤S31:建立深度强化学习神经网络结构,初始化迭代轮数n,最大步数j,衰减因子γ,探索率ε,当前Q网络Q及其参数θ,目标Q网络Q′及其参数θ′,批量梯度下降样本数m,梯度下降步数间隔k,目标Q网络参数更新频率P,起始点和目标点距离初始值L;
步骤S32:中央控制器通过计算获取机器人的状态S,作为网络的输入,机器人的状态S由三个通道和一个二维向量组成;
步骤S33:利用卷积神经网络和残差神经网络,对输入的三个通道信息进行特征提取,得到特征向量φ1(S);第一层通道代表视野范围内其他机器人位置,第二层通道代表视野范围内障碍物的位置,第三层通道是视野范围内设置的子目标的位置;利用线性网络,对指示目标点的二维向量进行特征提取,得到特征向量φ2(S),将两个特征向量输入深度强化学习神经网络中输出候选动作;
步骤S34:所有机器人选择完动作后,中央控制器判断动作是否能够顺利执行,如果动作为停在原地,则给予奖励rs,如果机器人的动作是可行的,则按下列顺序给予奖励:
如果该动作让机器人到达目标点,给予奖励rg;
如果该动作让机器人和子目标之间的曼哈顿距离|xsub-x|+|ysub-y|小于阈值T,则给予奖励rsub;
如果该动作让机器人与目标点间的曼哈顿距离变小dt-dt-10,给予奖励rn;
如果该动作让机器人与目标点间的曼哈顿距离变大dt-dt-10,给予奖励rf;
如果机器人的动作是不可行的,即发生了机器人间的碰撞或碰到了障碍物,则给予奖励rc;
将机器人的状态行动对和奖励值函数,存入经验回放池中;
如果存在未到达目标点的机器人,则将当前训练步数加1;如果当前训练步数大于预先设置的最大训练步数j或所有机器人都到达目标点,则重新设置起始点和目标点,起始点和目标点距离初始值L;
步骤S35:返回步骤S32继续执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110535242.0/1.html,转载请声明来源钻瓜专利网。