[发明专利]基于最大似然回归树的地铁事故延误时间预测方法有效
申请号: | 201810915093.9 | 申请日: | 2018-08-13 |
公开(公告)号: | CN109447306B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 翁金贤;于尧;冯琳 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/26 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 成秋丽 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明披露了一种基于最大似然回归树的地铁事故延误时间预测方法。由于导致地铁延误的多个变量之间可能存在交互作用,本发明利用所构造的双变量分裂法建立最大似然回归树(MLRT)模型,描述并分析地铁事故延误。利用2005年到2012年的香港地铁事故数据建立的MLRT模型包含13个叶节点,每个叶节点分配有一个对数逻辑斯谛分布的加速失效模型(AFT)。模型验证结果表明,双因素分裂最大似然回归模型比传统的AFT模型和单因素分裂的最大似然回归树模型拟合效果更好。在此基础上,本发明可准确预测地铁延误事故,以及地铁事故延误超出最大承受范围的概率,作为提醒乘客重新规划行程的重要基础信息。 | ||
搜索关键词: | 基于 最大 回归 地铁 事故 延误 时间 预测 方法 | ||
【主权项】:
1.一种基于最大似然回归树的地铁事故延误时间预测方法,其特征在于包括以下步骤:步骤一:收集处理历史数据:(1)确定研究对象,即城市或区域;(2)规定研究数据的统计期;(3)收集地铁事故延误相关数据;(4)将数据按照地铁事故发生的日期、地铁线路、事故起因以及地铁事故延误时间多个类别进行分类梳理,得到地铁事故延误的自变量:地铁事故发生日期、发生时间、供电故障、车门故障、车辆故障、紧急事件、信号故障、与坠落物或乘客发生碰撞、轨道故障、操作故障,以及地铁事故延误因变量;步骤二:描述性统计分析:(1)对地铁事故延误的总体样本数据进行描述统计,确定数据的集中趋势、离散程度,确定数据的分布形式;(2)对各自变量影响下的地铁事故延误数据进行描述统计;(3)对各自变量进行显著性检验,为模型建立变量的选取和分析奠定基础;(4)对于会对地铁事故产生交互作用的变量组合进行识别,具体有工作日且非高峰期、周末或高峰期、无信号故障且无碰撞、信号故障或碰撞、有车门故障且无车辆故障、无车门故障或有车辆故障;步骤三:建立模型:将样本分为两部分,随机选取80%的数据作为训练样本,用于初始树形结构的构建,剩余20%的数据作为检验样本,用于初始树形结构的剪枝;(一)建树:(1)对于具有nk个样本观测数量的节点k,计算预测模型的参数的最大对数似然值LL(k),(2)对于具有m个解释变量的集合X=(x1,x2,...,xm),给定让其与变量xj,j=1,2,...,m进行组合,根据变量xi和xj组合的所有取值情况来搜寻所有可能的分裂方案;单变量分裂是双变量分裂的一种特殊情形,即xi=xj;设xi和xj的取值个数分别为h和p;双变量分裂产生的所有可能的分裂方案可以表示为:节点k处由分裂方案产生的最大对数似然值增量为:其中,只有时,方案可行;对分裂方案集Sij的穷举搜索,最终找到对数似然值增量最大的最优方案即:(3)对于给定变量xi,通过步骤(2)找到其最佳配对变量和相应的节点k的最优方案(4)在对所有变量组合进行搜索后,通过搜寻总体对数似然值最大增量得到总体最优分裂方案找到最佳变量组合(5)若则节点k被视作叶节点;否则,分裂方案被用来对节点k进行划分。(6)当满足以下两个分裂停止规则的其中一个时,停止建树:(a)底部任意一个节点有不能继续划分;(b)当前树形结构的深度达到了阈值;否则,返回步骤(1);(二)剪枝:采用复杂成本剪枝算法对树形结构进行修剪,移除对预测准确度无贡献的分支;使用赤池信息量准则来代表最大似然回归树T的成本,最小化AIC值,生成最优树;其中,树T的AIC值表示为:(1)对于初始树Tj,设k是其内部节点,且k具有叶节点,Tk表示以k为根节点的子树,Tj‑Tk表示从初始树Tj剪掉子树Tk,其中节点k保留;计算树Tj和Tj‑Tk的AIC值,得到AIC(Tj)和AIC(Tj‑Tk);(2)对树Tj自下向上寻找所有可能的节点k,将其记作集合K,重复步骤一的操作,求出相应的AIC(Tj‑Tk),k∈K,从中找出最小的AIC(Tj‑Tk),并将此节点记为k*,则有:(3)比较和AIC(Tj)的大小,若则将树设置为新的初始树,即令j=j+1,然后返回步骤一,对树进行新一轮的搜索;否则,树Tj即为最优树,停止搜索;步骤四:校验模型:将训练样本和检验样本分别应用于传统单变量分裂的最大似然回归树模型,计算对数似然值和AIC值,并与双因素分裂的最大似然回归树模型进行比较;步骤五:预测比对:基于步骤一收集到的数据,建立双因素分裂的最大似然回归树;在最优树形结构的每个叶节点处建立预测模型,对地铁事故延误作出预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810915093.9/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理