[发明专利]一种基于强化学习的超启发算法的车辆路径优化方法有效
申请号: | 201911116073.6 | 申请日: | 2019-11-15 |
公开(公告)号: | CN110956311B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张景玲;冯勤炳;余孟凡 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06Q10/047 | 分类号: | G06Q10/047;G06N3/006;G06Q10/0835 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 启发 算法 车辆 路径 优化 方法 | ||
1.一种基于强化学习的超启发算法的车辆路径优化方法,其特征在于,所述方法包括以下步骤:
步骤1车辆路径问题分析,采用Augerat’s instances数据集,车辆路径问题的成本矩阵的元素是欧几里得距离;假定配送中心设为P=0,客户点设为i,客户点总数设为L,i∈L,最多车辆数设为K,每辆车具有相同载重量为q,每个客户点需求量设为di,客户点i到客户点j的距离设为cij,优化的目标是行驶距离最短,一个完整的解包含了全部路径的集合;
步骤2初始化,先生成Npop组个体的种群,得到最小路径,利用聚类思想划分,h块区域,得KC块,由KC块随机挑选生成可行解组p,可行解组p的元素pi=p1,p2,p3,…,pNP,计算种群适应度f,种群适应度f的元素fi=f1,f2,f3,…,fNP;随机挑选一组可行解pi以及对应适应度值fi,设pb为最优解个体,fb为最优适应度值,设LLH算子数量为NA,初始化pb=pi,fb=fi,State=0,Action=random(NA),其中Action取值为1至NA中的任何一个整数,表示从范围1至NA随机挑选一个整数作为Action的值;
步骤3经验池、序列池存储,操作上步Action=random(NA)后,产生的个体为Ind,适应度值为fit,根据适应度值,判断立即回报值Reward,此时状态即为“下一个状态”,判断该State和Statet所属状态,利用式(1)计算Statet值:
Statet=-(fit-fit')/fit'+Ck (1)
设由EP代表经验池,将上述值存入,则EPnE=[State,Action,Reward,Statet],nE代表经验池中数据组数;当达到设定次数后,判断此时State值所属状态,如果为15≤State≤25,则此时Action为路径内算子,对此时的序列进行筛选,质量优则存入SP,SP代表序列池,反之,则更新序列;SP设常量Qsp为容量,且每次对比SP中序列,若此时序列在SP中有对应序列集,则SP中序列计数一次,当SP容量已满,则刷新对比次数最少的序列;
步骤4解的接受保留,判断,如果fitfit′,则说明此时解的适应度值更好,则保存解及解的适应度值,令State=Statet,fit′=fit;如果fit≥fit′,则采用模拟退火判别,随机产生一个值,若退火概率p随机值,则同样保留好解,同时更新状态,反之,则舍去该解,此时Statet=State,fit′=fit′;
步骤5判断经验池容量,判断经验池内组数nE,nE≥NE,则进入步骤8学习环节,否则,进入步骤6选择Action步骤;
步骤6选择Action,设置epsilon值,若随机值epsilon,将State值输入估值网络,输出Qe值,取max(Qe)所对应的Action,若随机值epsilon,则根据此时State值,令Action=random(NA),此时NA为对应State值的算子序号;
步骤7保留最优解,若fit≤fb,fb=fit,pb=Ind,反之则舍弃;
步骤8选择学习样本,并初始化神经网络,从EP中随机挑选NS组,作为学习样本,记为ESP,初始化估值网络和目标值网络的阈值ωe、ωt与估值网络和目标值网络的权值be、bt;
步骤9神经网络学习更新,估值网络中输入为ESP样本中第nS个样本中的State值,计算后取目标值网络中输入利用式(2),计算损失值Loss,更新估值网络的阈值ωe和权值be;
γ是折扣率;
步骤10更新目标值网络,判断学习代数Ln≥LN,则令ωt、bt替代ωe、be的值;
步骤11判断学习结束情况,若学习代数Ln≤(3/4)*NS,则进入步骤8继续学习更新,反之,则进入步骤6选择Action,返回主循环;
步骤12程序结束,输出车辆路径距离最优值及最优值路径序列。
2.如权利要求1所述的一种基于强化学习的超启发算法的车辆路径优化方法,其特征在于,所述步骤2中,生成初始种群组的过程如下:
2.1)对于其中任意一条路径,先设配送中心点为P=0,即该路径两端点都记为0;随机从L个客户点中挑选部分客户点,加入该路径的首尾两端点中间,判断该车辆现载重量情况;
2.2)从剩下的客户点中继续随机挑选,依次加入路线,直到超出标准载重量,则产生第二条路径;将超出标准载重量的点,加入新路线中;重复循环,当所有客户点都被选取,则一个初始种群个体生成;
2.3)多次进行上述操作,生成设定数量个体的种群,数量为Npop,对Npop个个体进行路径判断,选出具有最短路径数的个体,记最短路径数为n,将n作为划分块的数量;
2.4)计算所有客户点与仓库点的距离ci0,为了节省聚类分类的时间,将ci0升序排列,只取前m个点作为聚类中心点,设聚类中心点为LKC,KC=1,2,3,…,m,KC代表聚类块,以除聚类中心点外的其他客户点,与各聚类中心的距离最短为原则,进行聚类;
2.5)随机排列KC块,按车辆载重量分配,依KC块排列顺序,随机挑选客户,若KC块中客户点未能满足第k车辆载重,则向KC+1块中随机抽取客户点,直至达到第k辆车载重要求,反之则向后延用至k+1辆车,共组成n条路径,由此产生一个初始解个体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911116073.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动间距下液遥控船
- 下一篇:一种防抖群组、防抖镜头和摄像装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理