[发明专利]一种基于多重对应和K-means聚类的交通事故成因分析方法有效
申请号: | 201811150213.7 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109408557B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 夏井新;樊朋光;王晨;宋燕超;刘林 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22;G06F16/28;G06Q50/26 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王安琪 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多重 应和 means 交通事故 成因 分析 方法 | ||
1.一种基于多重对应和K-means聚类的交通事故成因分析方法,其特征在于,包括如下步骤:
(1)根据获取的交通事故数据集,选取影响交通事故发生的变量并分类;
(2)通过Mysql数据库统计各变量的类别数和相应事故数量,筛选合并异常值的变量类别,得到事故数据表;
(3)将得到的事故数据表处理得到二进制指标矩阵;具体包括如下步骤:
(31)设选取的事故数据包括n起交通事故,共有p个数据字段每个字段的类别个数分别为k1,…,kj,…,kp,则数据集的类别总数为设变量j的类别l为jl;
(32)定义二进制指标矩阵的元素为设Xjl与jl相关联,Xjl=[x1jl,…,xnjl],变量j的kj个类别构成与变量相关的二进制指标矩阵,n*kj项,对于所有的p个类别变量,通过横向连接得到整个数据集二进制指标矩阵X:
其中,矩阵X的行和全部等于p,列和是变量的单类别边际频率,设为Vjl,各变量全部类别的列和等于n,得到矩阵X的总和为np;第i行的行百分比jl列的列百分比
(33)设对应矩阵为P=(1/np)X;设行质量向量为r=P1,对于矩阵X,r中的每一个元素均为设列质量向量为c=PT1,对于矩阵X,c中的每一个元素为设Dr和Dc分别为行质量与列质量的对角矩阵,行百分比或列百分比之间的“卡方距离”是由或度量定义的加权欧氏距离;
(4)将事故类型作为表征事故特征的变量进行多重对应分析,得到各变量类别的多重对应分析坐标;
(5)使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维,得到LLE降维坐标;
(6)使用K-means聚类算法对变量类别进行聚类,并根据聚类结果进行分析。
2.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法,其特征在于,步骤(4)中,将事故类型作为表征事故特征的变量进行多重对应分析,得到各变量类别的多重对应分析坐标具体包括如下步骤:
(41)将事故类型作为表征事故特征的变量,然后选取驾驶员、车辆、道路和环境四个方面的变量,进行多重对应分析;
(42)多重对应分析方法的实现过程包括
(a)奇异值分解的计算:
保留其K*个主成分,设为M=UDαVT;U为包含行特征向量的矩阵;Dα为奇异值对角矩阵,是特征值矩阵;V为包含列特征向量的矩阵;
(b)行点和列点的坐标coordinate分别为:
(c)设dr和dc分别为行和列与其各自相应质心之间的χ2距离:
dr=diag{FFT}
dC=diag{GGT}
(d)行和列在某一维度ζ上的表现质量分别为:
其中,和分别为dr和dc的相应元素;
(43)对事故数据进行两次多重对应分析:
(a)第一次多重对应分析:根据得到的特征值信息和变量类别在各维度上的表现质量cos2,筛选出表现质量差的变量;
(b)第二次多重对应分析:去除表现质量差的变量后进行多重对应分析,得到变量类别的多重对应分析坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811150213.7/1.html,转载请声明来源钻瓜专利网。