[发明专利]适于乘客等待时间分布随时间变化的网约车订单分配方法有效
申请号: | 202011050958.3 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112288233B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 郑嘉琦;陈伟荣;陈贵海 | 申请(专利权)人: | 南京大学 |
主分类号: | G06Q10/0631 | 分类号: | G06Q10/0631;G06Q30/0601;G06Q30/0645;G06N3/049;G06N3/084;G06N3/092 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 陈月菊 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适于 乘客 等待时间 分布 随时 变化 网约车 订单 分配 方法 | ||
1.一种适于乘客等待时间分布随时间变化的网约车订单分配方法,其特征在于,所述订单分配方法包括以下步骤:
S1,根据乘客等待时间分布变化范围计算出该分布变化范围下批处理算法对应的最优的匹配间隔并对不同的乘客等待时间分布训练不同的深度强化学习模型,将上述具有不同匹配间隔的批处理算法和适应不同乘客等待时间分布的深度强化学习模型合并为一个算法集合;步骤S1中,所述对不同的乘客等待时间分布训练不同的深度强化学习模型的过程包括:
将当前等待匹配的乘客数目和网约车数目、当前等待匹配的乘客和网约车各自的平均等待时间,以及当前用匈牙利算法执行匹配所能得到的收益作为输入的状态参数,对深度强化学习模型进行训练,深度强化学习模型的输出动作包括:采用匈牙利算法匹配当前等待的所有乘客和网约车,和不执行匹配并且等待更多的乘客和网约车再分配;
所述深度强化学习模型的训练奖励为匹配带来的收益;
S2,当有订单到来时,采用预设的选择模型在步骤S1合并得到的算法集合中选择其中一个算法进行分配订单,根据收益反馈对选择模型中的参数进行更新;步骤S2中,所述当有订单到来时,采用预设的选择模型在步骤S1合并得到的算法集合中选择其中一个算法进行分配订单的过程包括以下步骤:
S21,当选择模型刚被启动时,依次选择算法集合中的算法进行第一预设时间范围内的订单分配,记录各个算法的总收益;
S22,归一化各个算法的总收益至0-1之间,并根据收益计算各个算法收益的置信区间的上界,同时为每个算法维持一个虚拟队列,当算法被选择时对应的队列长度减一,直至允许的最小长度阈值,反之则在对应的队列长度上加上一个选择率常数;
S23,之后每次都选择收益置信区间上界和队列长度之和最大的算法进行第二预设时间范围的匹配,并记录收益更新各个算法对应的收益置信区间上界以及虚拟队列长度;
S3,结合步骤S2的收益反馈检测乘客等待时间分布是否变化,若发生变化则重启选择模型并清空反馈记录;步骤S3中,结合步骤S2的收益反馈检测乘客等待时间分布是否变化的过程包括以下步骤:
S31,启动选择模型,初始化两个定长队列,两个定长队列分别被定义成第一队列和第二队列,第二队列长度为第一队列长度的一半,且第二队列的长度乘以选择率常数的乘积取值大于1;
S32,将每次得到所选算法的收益入队第一队列直至第一队列满;
S33,针对各个算法,选择第一队列前半部分中的对应的收益构建第一收益向量,选择第一队列后半部分中的对应的收益构建第二收益向量;其中,若一个算法在前半队列或后半队列中被选择了多次,则在几个对应的收益中随机选取一个;
S34,将两个收益向量相减之后取1范数作为第二队列的入队元素,直至第二队列满;
S35,线性拟合第二队列中的元素,其中入队元素作为因变量,元素在队列中的序号作为自变量,若拟合直线斜率在给定置信水平下的置信区间下界大于0则认为分布发生改变,返回步骤S31,若小于0则认为分布不变无需重启选择模型,结束流程。
2.根据权利要求1所述的适于乘客等待时间分布随时间变化的网约车订单分配方法,其特征在于,当进行深度强化学习模型训练时,通过执行得分较高的动作并尝试收益,将产生的收益、状态参数、输出动作,以及下个时刻的状态参数存储起来,周期性优化神经网络:
将存储的数据带入Q值状态转移方程得到真实的Q值并与神经网络输出的得分相减得到误差,并对误差进行逆传播以优化神经网络。
3.根据权利要求1所述的适于乘客等待时间分布随时间变化的网约车订单分配方法,其特征在于,步骤S35中,通过调节置信水平调节检测乘客等待时间分布是否变化的检测强度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011050958.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理