[发明专利]一种基于RSF模型的交通事故持续时间影响因素分析方法在审
申请号: | 202111651228.3 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114372522A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 李健;王歆远 | 申请(专利权)人: | 同济大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06Q50/30 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵志远 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 rsf 模型 交通事故 持续时间 影响 因素 分析 方法 | ||
1.一种基于RSF算法的交通事故持续时间影响因素分析方法,其特征在于,该方法包括以下步骤:
步骤S1、获取轨道交通事故数据,预处理后得到原始数据集;
步骤S2、构建基于随机生存森林模型的事故持续时间预测模型;
步骤S3、基于C-index求得的预测误差率选取最优随机生存森林模型;
步骤S4、通过变量重要性VIMP指标确定轨道交通事故持续时间的影响因素,并计算重要程度。
2.根据权利要求1所述的一种基于RSF算法的交通事故持续时间影响因素分析方法,其特征在于,所述步骤S1具体为:
采用爬虫算法提取轨道交通事故数据,包括事故持续时间、事故类型、事故区段以及发布信息;
对于轨道交通事故数据进行文本信息提取,并剔除重复、缺失和异常的数据并对于事故数据进行拓展,增加路线相关变量、环境变量、站点相关变量、事故相关变量、事故类型变量进行分析,获得原始数据集D。
3.根据权利要求1所述的一种基于RSF算法的交通事故持续时间影响因素分析方法,其特征在于,所述步骤S2包括以下子步骤:
步骤S21、利用bootstrap法从原始数据集D中分离出训练数据集L以及测试数据集L′;
步骤S22、构建二元递归生存树,随机选取预定数量的特征进行拆分,并对比不同节点拆分规则,选择对子节点生存值差异最大的节点拆分规则进行拆分,尽可能地生长生存树,直到每个末端节点的样本数不低于最小默认值;
步骤S23、在生成预设数量的生存树后,采用Nelson-Aalen方法估计随机生存森林模型的总累积风险。
4.根据权利要求3所述的一种基于RSF算法的交通事故持续时间影响因素分析方法,其特征在于,所述步骤S21中原始数据集D表示为(X1,T1,δ1),...,(Xn,Tn,δn),其中,X表示事件影响因素对应的特征向量,T表示事件的持续时间,δ表示删失状态。
5.根据权利要求4所述的一种基于RSF算法的交通事故持续时间影响因素分析方法,其特征在于,所述步骤S22中的不同节点拆分规则包括Log-rank拆分法、Log-rank score拆分法以及Random拆分法。
6.根据权利要求3所述的一种基于RSF算法的交通事故持续时间影响因素分析方法,其特征在于,所述步骤S23具体为:
对于终端节点h,第l棵树的CHF累积危险函数为:
其中,为终端节点h,第l棵树的CHF累积危险函数值;dl,h为终端节点h中事故持续时间大于tl,h的样本数,Yl,h为终端节点h中事故持续时间大于tl,h时发生事件的样本数;
则对于整个随机森林模型样本的总累积风险为:
其中,L为生存树数目;xe为整个随机森林模型的样本。
7.根据权利要求1所述的一种基于RSF算法的交通事故持续时间影响因素分析方法,其特征在于,所述步骤S3具体为:采用C-index计算OOD预测误差,计算不同生存树、拆分规则所构建的随机生存森林模型的预测误差率,选择最优随机生存森林模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111651228.3/1.html,转载请声明来源钻瓜专利网。