[发明专利]一种基于强化学习算法的无人天车路径规划方法及装置有效
申请号: | 202111351834.3 | 申请日: | 2021-11-16 |
公开(公告)号: | CN113790729B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 彭功状;孟莹莹;徐冬;王晓晨;杨荃 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 算法 无人 天车 路径 规划 方法 装置 | ||
1.一种基于强化学习算法的无人天车路径规划方法,其特征在于,所述方法包括:
S1、获取预先存储的多个任务案例,所述任务案例包括路径规划方案对应的Q表以及障碍点集合,所述Q表用于表示状态与动作对应的行为价值;
S2、通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表;
S3、基于Bellman方程、ε-greedy贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表;
S4、判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;
S5、在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将所述规划Q表对应的路径规划作为待规划场景的路径规划。
2.根据权利要求1所述的方法,其特征在于,所述S2中的通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表,包括:
S21、确定待规划场景中的障碍点集合与所述多个任务案例中的每个任务案例的障碍点集合的交集数量P(π1∩π2);其中,π1表示待规划场景中的障碍点集合,π2表示每个任务案例的障碍点集合;
S22、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值max(P(π1),P(π2));
S23、根据下述公式(1),计算待规划场景与所述多个任务案例中的每个任务案例的相似度;
S24、选择最大相似度对应的任务案例对应的Q表,作为待规划场景对应的初始Q表。
3.根据权利要求1所述的方法,其特征在于,所述S3中的基于Bellman方程、ε-greedy贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表,包括:
S31、确定起始状态以及目标状态;
S32、基于所述初始Q表,根据ε-greedy选择策略选择动作a,确定所述动作a对应的行为价值R和状态s;
S33、获取学习率α和未来状态动作对当前状态动作的价值比例γ;
S34、根据公式(2),计算在状态s时的动作a的收益加权V(s,a);
V(s,a)=V*(s,a)+α(R+γmaxa′V(s′,a′)-V(s,a))……(2)
其中,a表示动作,s表示状态,α为学习率,V*(s,a)表示上一个动作及状态对应的收益加权,R表示在所述初始Q表中动作a对应的行为价值,γ为预设的未来状态动作对当前状态动作的价值比例,max为取最大值运算,a′表示下一个新动作,s′表示新动作对应的新状态;
S35、将计算得到的V(s,a)作为动作a在状态s时对应的行为价值,更新在所述初始Q表中;
S36、判断新状态是否达到目标状态,如果是则判断完成对初始Q表的更新,如果否则转去执行S32。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111351834.3/1.html,转载请声明来源钻瓜专利网。