[发明专利]基于深度强化学习的无人车充电路径规划方法在审
申请号: | 202210302308.6 | 申请日: | 2022-03-25 |
公开(公告)号: | CN114676909A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 傅忱忱;郜正轩;吴巍炜;吕妍;周頴豪;徐学永;夏羽 | 申请(专利权)人: | 东南大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/06;G06Q50/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 薛雨妍 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 无人 充电 路径 规划 方法 | ||
1.基于深度强化学习的无人充电车路径规划方法,其特征在于,包括如下步骤:
步骤(1)收集无线传感网络中的节点S={s0,s1,s2,…,sn}信息,包含节点的位置信息和紧急状况;
步骤(2)搭建基于深度强化学习的模型GAPN,包含点编码器、图编码器、解码器以及注意力机制模块;
步骤(3)以搜集到节点信息数据为基础,生成训练数据集和测试数据集用于训练GAPN模型;
步骤(4)设定模型训练目标为最小化节点死亡率以及最小化充电车路径成本,定义损失函数,使用强化学习actor-critic算法对GAPN进行训练,得到最终的模型;
步骤(5)将无线传感网络中的节点S={s0,s1,s2,…,sn}信息输入到GAPN模型中,模型返回充电车访问所有节点的方案π={s0,s′1,s′2,…,s′n},其中π是对S的重新排序;
步骤(6)利用一种启发式聚类方法结合GAPN,解决多个充电车场景下的路径规划问题,即无线传感网络具有多个充电车时,调度充电车以及规划充电车路径的方案。
2.如权利要求1所述的基于深度强化学习的无人充电车路径规划方法,其特征在于:步骤(4)中使用的actor-critic算法具体为:
步骤4.1:以GAPN的网络结构为基础搭建actor网络和critic网络,θ代表actor网络参数,θv代表critic网络参数,两个网络的区别在于actor网络在解码过程中使用平均采样的方式,critic网络采用贪心采样的策略;
步骤4.2:一批量训练数据集合X,共有B个数据,对于每一个数据集实例xi,应用当前actor网络进行求解最终路径成本L(πi|xi),应用critic网络求解其基线期望值
步骤4.3:利用步骤4.2中得到的值进行两个网络批量策略梯度计算,actor网络策略梯度gθ计算:critic网络策略梯度
步骤4.4:利用梯度下降法对两个网络的参数分别进行更新,更新规则分别为:θ=θ+lr*gθ,其中lr为学习率;
步骤4.5:重复步骤4.2至步骤4.4T次,T为训练前设定好的训练代数。
3.如权利要求1所述的基于深度强化学习的无人充电车路径规划方法,其特征在于:步骤(6)中使用的启发式聚类算法具体为:
步骤6.1:定义m个子集合R={S1,S2,…,Sm},用于存放每个充电车将要访问的节点;定义e(Sj)为Sj中所有节点的紧急程度之和;
步骤6.2:对于输入的无线传感网络节点集合S,按照节点的初始紧急程度从大到小排序;
步骤6.3:先将节点集合S中前m个节点分别放入m个子集S1,S2,…,Sm中;
步骤6.4:先将集合R按照e(Sj)递增顺序排序,遍历集合S中剩下的节点,对于当前遍历到的节点si,如果Sj中不存在节点sk和节点si的开启时间之差Ri,k大于旅行时间Γi,k,或者截止时间之差Di,k小于旅行时间Γi,k,则将si放入Sj,否则就更换另一个子集,直至条件满足;
步骤6.5:得到最终m个子集合R={S1,S2,…,Sm},用于m个充电车任务执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210302308.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理