[发明专利]一种基于深度强化学习的公交排班模型的设计方法、装置及系统在审
申请号: | 201911253753.2 | 申请日: | 2019-12-09 |
公开(公告)号: | CN113033928A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 王乾宇;周金明;赵丽 | 申请(专利权)人: | 南京行者易智能交通科技有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q10/04;G06Q50/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210014 江苏省南京市秦淮区永智*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 公交 排班 模型 设计 方法 装置 系统 | ||
1.一种基于深度强化学习的公交排班模型的设计方法,其特征在于,包括如下步骤:
步骤1,根据发车时刻表,生成三个矩阵:规则矩阵X、排班矩阵Y、可选位置矩阵Z;建立马尔可夫决策过程;
所述规则矩阵X∈{0,1}N×N,规则矩阵的元素Xi,j含义如下
所述规则矩阵可以根据时刻表生成,所述班次i、j表示编号i、编号j对应的班次,所述发车时刻表中一共有N个班次,对时刻表中每一个班次按照时间顺序编号:1,2,…,N;
所述排班矩阵Y∈{0,1}N×N,元素Yi,j含义如下
排班矩阵初始化元素全为0,后续根据每一步策略来改变其中的值;
可选位置矩阵Z∈{0,1}N×N,矩阵的元素Zi,j的含义如下
可选位置矩阵初始化Z=X,后续根据执行策略来改变其中的值;
所述马尔可夫决策过程为:马尔可夫决策过程由(S,A,R,π,G)构成,其中S表示状态空间,A表示动作空间,πθ表示策略,θ为策略的参数;用πθ(a|s)表示在策略πθ和状态s下动作a的概率分布,R表示回报奖励函数,G表示随时间累计的回报奖励;
根据排班的任务定义马尔可夫决策过程:
策略πθ具体为:策略神经网络
状态s:(X,Y,Z)∈S
动作a:(i,j)∈A,动作a的执行过程为:在Yi,j处填1,并将Z的第i行和第j列全部置为0
回报奖励R(s,a):
所述Score(Y)为评分函数,表示实数域,所述评分函数用于评估排班结果的好坏;
步骤2,对排班策略神经网络进行训练:
获取初始化状态s0,所述初始化状态s0为规则矩阵、排班矩阵、可选位置矩阵三个矩阵的初始值;
计算状态st对应动作的概率分布πθ(a|st):
策略神经网络的输入是状态st即三个矩阵的N×N×3的张量,网络的输出为N2维的向量,表示在排班矩阵中选中的位置,其中t表示执行的第t次操作;
根据概率分布随机选取动作at;
执行动作at后得到状态st+1;
计算回报奖励rt=R(st,at);
执行完at后得到st+1,如果状态动作at对应的Zi,j为0,则退出;如果执行完at后,Z变成全是0,则退出;否则返回到步骤:计算状态st+1对应动作的概率分布πθ(a|st+1)
由此得到排班的轨迹τ
τ=s0,a0,r0,s1,a1,r1,…,sT,aT,rT
根据强化学习的目标函数和策略梯度对策略神经网络的参数进行更新,
即得到公交排班模型。
2.根据权利要求1所述的一种基于深度强化学习的公交排班模型的设计方法,其特征在于,所述班次j可以由同一辆车在执行完班次i后执行,具体为:班次j的出发时间位于班次i的到达时间后的10~40min内。
3.根据权利要求1所述的一种基于深度强化学习的公交排班模型的设计方法,其特征在于,所述评分函数Score(Y)为
其中α和β为超参数,用于控制比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京行者易智能交通科技有限公司,未经南京行者易智能交通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911253753.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于枪弹自动包装线的非连续纸盒的布弹装置和方法
- 下一篇:生物安全柜
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理