[发明专利]基于Adaboost算法的交通高危人员识别方法有效
申请号: | 201810815618.1 | 申请日: | 2018-07-16 |
公开(公告)号: | CN109145953B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 吕伟韬;刘林;陈凝;饶欢 | 申请(专利权)人: | 江苏智通交通科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G08G1/017 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 211100 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 adaboost 算法 交通 高危 人员 识别 方法 | ||
1.一种基于Adaboost算法的交通高危人员识别方法,其特征在于:根据道路交通参与者的违法属性判断其交通事故风险,包括以下步骤,
S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集;
S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U;步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为:
高危人员:一类为存在违法记录且存在负主要责任或全部责任的严重交通事故记录的交通参与者;另一类为存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的交通参与者;
一般人员:存在违法记录但无事故记录的交通参与者;
不满足上述判别条件的数据构成待识别子集;
S3、对违法数据集中的一般人员数据子集N进行抽样,与高危人员数据子集D组合并拆分获得训练集与测试集;具体为,
S31、对一般人员数据子集进行随机抽样,获得压缩后的一般人员样本N’;
S32、对压缩后的一般人员数据子集N’的样本数据进行变量处理与筛选;具体为:
S321、设置因变量target,其数值在高危、一般中择其一,根据样本数据标签确定;违法数据集的数据字段作为自变量;
S322、删除自变量中的常数自变量与方差极小的自变量;其中方差极小的判断条件为:其中freqcutX=xf/xl,xf为变量X频次最大的样本值,xl为变量X频次次大的样本值,Tf为对应阈值;uniquecutX=mX/nX,mX为样本值去重后的样本数量,nX为样本总量,Tu为uniquecut的检验阈值;
S323、删除与其他自变量共线性大于阈值的自变量;
S324、检查自变量多重共线性,确定数据自变量;
S33、将高危人员数据子集D与N’的合集G拆分为训练集和测试集;
S34、对训练集进行SMOTE抽样,确定高危人员数据子集以及一般人员数据子集扩样、缩样比例,得到最终的样本数量,处理后获得训练集样本;
S4、基于Adaboost算法,以训练集数据训练高危人员识别模型,确定模型参数;其中,模型参数包括学习率、弱分类器个数、最大树深、节点最小分裂值、叶节点最小样本数、最大特征数;
S5、以测试集数据进行高危人员识别模型评估,并确定分类概率临界阈值,校正模型,获得最终的交通高危人员识别模型;
S6、将步骤S2中待识别子集数据输入步骤S5得到的交通高危人员识别模型,获得高危人员识别结果。
2.如权利要求1所述的基于Adaboost算法的交通高危人员识别方法,其特征在于:步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。
3.如权利要求2所述的基于Adaboost算法的交通高危人员识别方法,其特征在于:步骤S1中事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性。
4.如权利要求2所述的基于Adaboost算法的交通高危人员识别方法,其特征在于:步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏智通交通科技有限公司,未经江苏智通交通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810815618.1/1.html,转载请声明来源钻瓜专利网。