首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于深度强化学习的公交排班模型的设计方法、装置及系统在审

申请号：	201911253753.2	申请日：	2019-12-09
公开（公告）号：	CN113033928A	公开（公告）日：	2021-06-25
发明（设计）人：	王乾宇;周金明;赵丽	申请（专利权）人：	南京行者易智能交通科技有限公司
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q10/04;G06Q50/30;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	210014 江苏省南京市秦淮区永智***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习公交排班模型设计方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的公交排班模型的设计方法，其特征在于，包括如下步骤：

步骤1，根据发车时刻表，生成三个矩阵：规则矩阵X、排班矩阵Y、可选位置矩阵Z；建立马尔可夫决策过程；

所述规则矩阵X∈{0,1}^N×N，规则矩阵的元素X_i,j含义如下

所述规则矩阵可以根据时刻表生成，所述班次i、j表示编号i、编号j对应的班次，所述发车时刻表中一共有N个班次，对时刻表中每一个班次按照时间顺序编号：1,2,…,N；

所述排班矩阵Y∈{0,1}^N×N，元素Y_i,j含义如下

排班矩阵初始化元素全为0，后续根据每一步策略来改变其中的值；

可选位置矩阵Z∈{0,1}^N×N，矩阵的元素Z_i,j的含义如下

可选位置矩阵初始化Z＝X，后续根据执行策略来改变其中的值；

所述马尔可夫决策过程为：马尔可夫决策过程由(S,A,R,π,G)构成，其中S表示状态空间，A表示动作空间，π_θ表示策略，θ为策略的参数；用π_θ(a|s)表示在策略π_θ和状态s下动作a的概率分布，R表示回报奖励函数，G表示随时间累计的回报奖励；

根据排班的任务定义马尔可夫决策过程：

策略π_θ具体为：策略神经网络

状态s：(X,Y,Z)∈S

动作a：(i,j)∈A，动作a的执行过程为：在Y_i,j处填1，并将Z的第i行和第j列全部置为0

回报奖励R(s,a)：

所述Score(Y)为评分函数，表示实数域，所述评分函数用于评估排班结果的好坏；

步骤2，对排班策略神经网络进行训练：

获取初始化状态s₀，所述初始化状态s₀为规则矩阵、排班矩阵、可选位置矩阵三个矩阵的初始值；

计算状态s_t对应动作的概率分布π_θ(a|s_t)：

策略神经网络的输入是状态s_t即三个矩阵的N×N×3的张量，网络的输出为N²维的向量，表示在排班矩阵中选中的位置，其中t表示执行的第t次操作；

根据概率分布随机选取动作a_t；

执行动作a_t后得到状态s_t+1；

计算回报奖励r_t＝R(s_t,a_t)；

执行完a_t后得到s_t+1，如果状态动作a_t对应的Z_i,j为0，则退出；如果执行完a_t后，Z变成全是0，则退出；否则返回到步骤：计算状态s_t+1对应动作的概率分布π_θ(a|s_t+1)

由此得到排班的轨迹τ

τ＝s₀,a₀,r₀,s₁,a₁,r₁,…,s_T,a_T,r_T

根据强化学习的目标函数和策略梯度对策略神经网络的参数进行更新，

即得到公交排班模型。

2.根据权利要求1所述的一种基于深度强化学习的公交排班模型的设计方法，其特征在于，所述班次j可以由同一辆车在执行完班次i后执行，具体为：班次j的出发时间位于班次i的到达时间后的10～40min内。

3.根据权利要求1所述的一种基于深度强化学习的公交排班模型的设计方法，其特征在于，所述评分函数Score(Y)为

其中α和β为超参数，用于控制比例。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京行者易智能交通科技有限公司，未经南京行者易智能交通科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911253753.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于枪弹自动包装线的非连续纸盒的布弹装置和方法
下一篇：生物安全柜

同类专利

专利分类

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top