[发明专利]一种生产线移动机器人聚集式回收入库仿真方法及系统有效
申请号: | 202110423843.2 | 申请日: | 2021-04-20 |
公开(公告)号: | CN113110101B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 张涵;程金;王琪琪;王中华 | 申请(专利权)人: | 济南大学 |
主分类号: | G05B17/02 | 分类号: | G05B17/02 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫圣娟 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生产线 移动 机器人 聚集 回收 入库 仿真 方法 系统 | ||
1.一种生产线移动机器人聚集式回收入库仿真方法,其特征在于,包括:
基于场景信息以及移动机器人参数信息,对所述移动机器人建立回收入库运动学模型;
各移动机器人选择库内存储位置作为目标,利用预训练的改进的深度确定性策略梯度模型对每个移动机器人产生最优行为策略,通过力和速度的控制实现移动机器人的回收;
其中,所述改进的深度确定性策略梯度模型包括演员网络和批评者网络,通过以改进的人工势能函数为基础的奖励函数机制,计算智能体间的奖励,同时,通过引入特定智能体局部范围内其它智能体的状态信息来增加智能体对周围环境的判断;利用经验池中存储的智能体随机探索的历史经验进行模型的训练;所述以改进的人工势能函数为基础的奖励函数机制,具体表示为,对于单个智能体g来说,如果周围存在i个智能体hi,则它的人工势能奖励函数为:
其中,为智能体g和其他智能体hi的距离,Rg为单个智能体g的总人工势能函数奖励之和,ρ为比例系数。
2.如权利要求1所述的一种生产线移动机器人聚集式回收入库仿真方法,其特征在于,所述批评者网络的输入层中加入特定智能体局部范围内中其它智能体的状态信息,包括位置信息pother和速度信息vother,来增加智能体对周围环境的判断。
3.如权利要求1所述的一种生产线移动机器人聚集式回收入库仿真方法,其特征在于,所述改进的深度确定性策略梯度模型的训练,在经验池中选择训练样本进行模型训练,采用梯度下降算法反向来更新神经网络参数。
4.如权利要求1所述的一种生产线移动机器人聚集式回收入库仿真方法,其特征在于,所述回收入库运动学模型具体如下:
其中,为智能体速度变化量,为位置变化量,Fnoise和pnoise分别表示力随机噪声和位置随机噪声,Fit为智能体t时刻受力,为智能体在t时刻的速度,m为智能体的质量。
5.如权利要求1所述的一种生产线移动机器人聚集式回收入库仿真方法,其特征在于,所述演员网络包括动作估计网络和动作目标网络,所述批评者网络由价值估计网络和价值目标网络组成。
6.一种生产线移动机器人聚集式回收入库仿真系统,其特征在于,包括:
运动模型构建单元,其用于基于场景信息以及移动机器人参数信息,对所述移动机器人建立回收入库运动学模型;
路径规划单元,其用于各移动机器人选择库内存储位置作为目标,利用预训练的改进的深度确定性策略梯度模型对每个移动机器人产生最优行为策略,通过力和速度的控制实现移动机器人的回收;
其中,所述改进的深度确定性策略梯度模型包括演员网络和批评者网络,通过以改进的人工势能函数为基础的奖励函数机制,计算智能体间的奖励,同时,通过引入特定智能体局部范围内其它智能体的状态信息来增加智能体对周围环境的判断;利用经验池中存储的智能体随机探索的历史经验进行模型的训练;所述以改进的人工势能函数为基础的奖励函数机制,具体表示为,对于单个智能体g来说,如果周围存在i个智能体hi,则它的人工势能奖励函数为:
其中,为智能体g和其他智能体hi的距离,Rg为单个智能体g的总人工势能函数奖励之和,ρ为比例系数。
7.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的一种生产线移动机器人聚集式回收入库仿真方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的一种生产线移动机器人聚集式回收入库仿真方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110423843.2/1.html,转载请声明来源钻瓜专利网。