[发明专利]一种基于随机森林理论的交通事故时空热点判别方法有效

专利信息
申请号: 202110598394.5 申请日: 2021-05-31
公开(公告)号: CN113392885B 公开(公告)日: 2022-06-17
发明(设计)人: 李豪杰;武婉茜;任刚 申请(专利权)人: 东南大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 罗运红
地址: 210000 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 随机 森林 理论 交通事故 时空 热点 判别 方法
【权利要求书】:

1.一种基于随机森林理论的交通事故时空热点判别方法,其特征在于,包括如下步骤:

(1)采集城市道路交通事故数据集,所用数据集包含事故所在位置的年平均日交通量V、道路等级S,S=1为高速公路,S=2为一级公路,S=3为二级公路,S=4为三级公路,S=5为四级公路、天气W,W=1为晴天,W=2为雨天,W=3为雪天,W=4为雾天,W=5为大风天气、路面情况R,R=1为干燥路面,R=2为潮湿路面,R=3为积雪结冰路面、人口和就业数据P及事故发生点预设距离内交叉口数目I、公共交通设施数目B,所述公共交通设施数目B包括公交车站数量和地铁站数量、兴趣点数量O,所述兴趣点数量O包括医疗、娱乐、商业、工作和教育数据;将该数据集数据根据预设百分比值划分为模型训练数据集和测试集,并对数据进行预处理以处理数据缺失、清除异常数据、纠正错误数据;

(2)城市道路交通事故时空热点的判断和提取,城市道路交通事故时空热点是在一起事故发生后的一定时间段内,在一定范围内再次发生一起或多起事故的地点;根据所采集事故数据集,确定互相关联的时间和空间阈值,提取出符合这一时空条件的城市道路交通事故时空热点,统计出每一时空热点发生的事故数,并将其作为事故数量特征添加到交通事故数据集中;对于其他不属于时空热点情况的数据,取事故数量为1添加到数据集中,最终获得时空热点数据集D,D={x1,x2,…,x10,y},其中,x1为年平均日交通量V;x2为道路等级S,其中,S=1为高速公路,S=2为一级公路,S=3为二级公路,S=4为三级公路,S=5为四级公路;x3为天气W,其中,W=1为晴天,W=2为雨天,W=3为雪天,W=4为雾天,W=5为大风天气;x4为路面情况R,其中,R=1为干燥路面,R=2为潮湿路面,R=3为积雪结冰路面;x5为人口数据P;x6为就业数据E;x7为事故发生点预设距离内交叉口数目I;x8为公交车站数量B;x9为地铁站数量M;x10为兴趣点数量O,分别包括医疗O1、娱乐O2、商业O3、工作O4和教育数据O5,y为事故数;

(3)利用随机森林模型,建立时空热点识别模型,对时空热点数据集D采用有放回抽样的方法采集训练集,重复k次以生成k个时空热点样本集,并以此为基础构建k棵决策树,每棵决策树都与其时空热点样本训练子集相对应,然后将生成的k棵决策树组合成随机森林,对所有决策树的每一节点进行训练,随机森林模型的输入参数应包括:决策树数目n_estimator,时空热点特征维数dimension,决策树的深度depth和每个节点的特征数量n_node,对k棵决策树,对每个节点都无放回地在与时空热点相关的变量x1至x10中随机选取f维特征,作为当前节点的特征子集,并利用基尼指数度量样本数据特征被错分的概率,将基尼指数作为衡量指标寻找到f维特征中分类效果最好的数据特征,并判断是否满足终止条件,终止条件为树的当前深度达到设定最大深度depth,当满足终止条件时,停止分裂,基尼指数的计算公式为:

其中,t为节点属性,n为属于某一类别的样本数目,j为样本点,p(j/t)为该样本属于此类别的概率;

(4)对已建立的随机森林模型,利用测试集判断其模型的精度,并根据结果校正模型,对模型的参数进行调整,使其达到精度要求,获得最终的交通事故时空热点判别方法模型;

其中,调整的参数包括决策树个数n_estimator和决策树的最大深度max_depth,首先给定决策树个数和深度的参数范围,并在该给定范围空间内利用RandomizedSearchCV函数算法,以随机在给定的参数范围中采样的方式,对采样结果进行遍历并输出最优训练器的精度,将最优训练器的n_estimator和max_depth作为最优参数组合;然后,在上一步中得到的最优参数组合的一定浮动范围内取值,利用GridSearchCV算法尝试每一种参数组合,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,即最后选取得模型拟合程度最好的一组;

在建立随机森林模型的每轮抽样中,训练集中没有被采样的数据为袋外数据,利用袋外数据误差测试检测已生成的随机森林的精度,其计算公式为:

其中,O为袋外数据,X为随机森林分类错误的数目;研究对象为同时考虑到其时间特征和空间特征的交通事故数据记录,并以此为基础建立交通事故时空热点判别模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110598394.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top