[发明专利]一种AGV导航控制方法及系统有效
申请号: | 201910908871.6 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110926470B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 李卓炜;傅晓阳;陈悦 | 申请(专利权)人: | 吉林大学珠海学院 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G05D1/02;G05B19/418 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 张志辉 |
地址: | 519000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 agv 导航 控制 方法 系统 | ||
1.一种AGV车导航控制方法,其特征在于,该方法包括:
S10,为目标AGV车设定起始位置、目标位置及导航任务;
S20,目标AGV车根据起始位置和目标位置通过群机交互模型进行深度强化学习方法计算并进行评估,得到价值策略网络;
S30,根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益;
其中,所述步骤S10具体包括:
S11,为目标AGV车设定固定运动场所,其中场所还包括有其他多个AGV车;
S12,根据所述目标AGV车的目标位置及首选速度矢量,确定导航的联合状态;
所述步骤S20通过群机交互模型进行深度强化学习方法并得到价值策略网络,所述群机交互模型包括交互模块、池化模块及规划模块,其中,
所述交互模块用于模拟群机交互规则,并通过局部地图对群机交互进行编码,所述群机交互为多个AGV车的交互;
所述池化模块用于通过自注意机制将交互聚合到固定长度的嵌入向量;
所述规划模块用于评估目标AGV车与其他AGV车的联合状态的值以进行导航;
其中,所述交互模块具体包括:
构建局部地图,所述局部地图包括以每个AGV车i为中心的地图张量Mi来编码邻居AGV车的存在和速度矢量,其中,
其中w′j=(vxj,vyj,1)为其他AGV车j的局部状态向量,δab[xj-xi,yj-yi]为指标函数,Ni是第i个AGV车ith周围的邻近AGV车的集合;
使用多层感知器将其他AGV车i的状态、地图张量Mi以及AGV车的状态嵌入到固定长度矢量ei中,具体为ei=φe(s,wi,Mi,We),其中φe(·)是具有ReLU激活的嵌入函数,We是嵌入权重,嵌入向量ei被馈送到随后的多层感知器以获得目标机AGV和其他AGV之间的成对交互特征hi=ψh(ei,Wh),其中Ψh(·)是具有ReLU非线性的完全连接层,Wh是网络权重;
所述池化模块具体包括:通过池化模型完成了解每个相邻AGV车的相对重要性以及机群以数据驱动方式的集体影响,包括:将交互嵌入ei被转换为注意分数ai,转换方式为及ai=ψa(ei,em,Wa),其中em是通过平均汇集所有AGV个体获得的固定长度嵌入向量,ψa是具有ReLU激活的多层感知器,Wa是权重;给定成对交互向量hi和每个AGV车i的对应关注度得分αi,群体c的最终表示是所有对的加权线性组合:
所述规划模块具体包括:
通过v估计合作规划的状态值,其中v=fv(s,c,Wv),其中fv(·)是具有ReLU激活的多层感知器,权重由Wv表示;
其中,所述步骤S30具体包括:
设st表示AGV车的状态,表示其他AGV车在时间t的状态,AGV车导航的联合状态定义为
最优政策π*:则最大化的预期收益为:
其中
其中,是在时间t收到的奖励,γ∈(0,1)为折扣因子,V*是最优值函数,是从时间t到时间t+Δt的转移概率。
2.一种AGV车导航控制系统,用于执行权利要求1所述方法,其特征在于:
设定模块,用于为目标AGV车设定起始位置、目标位置及导航任务;
深度强化学习模块,对目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;
收益预期模块,用于根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学珠海学院,未经吉林大学珠海学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910908871.6/1.html,转载请声明来源钻瓜专利网。