[发明专利]一种基于快速提取shapelets的分类算法判断交通事故的方法有效
申请号: | 202110311321.3 | 申请日: | 2021-03-24 |
公开(公告)号: | CN113159128B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 赵聪;高东怀;宁玉文 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2413 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 王孝明 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 快速 提取 shapelets 分类 算法 判断 交通事故 方法 | ||
1.一种基于快速提取shapelets的分类算法判断交通事故的方法,其特征在于,该方法包括如下步骤:
步骤1,将交通领域数据集中的训练集的实数形式的时间序列集T={t1,...,tn}中的时间序列转换为ID序列,生成一个ID序列数据集;
所述的交通领域数据集中训练集包括畅通时间序列集
TP={TP1,TP2,...,Tv}、堵塞时发生事故时间序列集TE={TE1,TE2,...,Tl}和堵塞时未发生事故时间序列集TNE={TNE1,TNE2,...,Tm};
其中:
tn为交通领域数据集中的训练集第n个时间序列;
Tv为畅通时间序列集TP中第v个畅通时间序列;
Tl为堵塞时发生事故时间序列集TE中第1个堵塞时发生事故时间序列;
Tm为堵塞时未发生事故时间序列集TNE中第m个堵塞时未发生事故时间序列;
步骤2,通过对ID序列数据集中的ID序列进行哈希处理去除相似序列,实现数据降重;
所述的步骤2具体步骤如下:
步骤2.1,将不同长度的ID序列统一放大到最长ID序列长度的2倍;
步骤2.2,将步骤2.1放大后的ID序列随机选择3个ID序列作为区分ID进行哈希处理,构建区分哈希族;
步骤2.3,对ID序列中未作为区分ID的待计算的ID序列进行哈希处理,构建待计算哈希族;
步骤2.4,将待计算哈希族中的元素逐个与区分哈希族进行对比,只要与区分哈希族的哈希值有一次相同,就判定计算哈希族中的元素和区分哈希族中的ID序列相似,并将该元素对应的ID序列从ID序列数据集中移除,对比所有的待计算哈希族中的每个元素实现数据降重;
步骤3,从时间序列集T中提取经过步骤2处理后的ID序列数据集对应的降重后的时间序列集Tnew,从降重后的时间序列集Tnew中选择堵塞相关的时间序列子序列获取shapelet候选集Scandidate;
步骤4,从shapelet候选集Scandidate中选取shapelet处理集S,具体步骤为:
步骤4.1,从降重后的时间序列集Tnew中任意选取第i个时间序列的shapelet即Si和第j个时间序列的shapelet即Sj,计算Si和Sj之间的距离dist(Si,Sj);
其中,1≤i<j≤U,i≠j;
步骤4.2,通过欧氏距离计算得出shapelet候选集Scandidate中的每个候选shapelet和降重后的时间序列集Tnew之间的距离阈值选取τu中Si对应的距离阈值τi和Sj对应的距离阈值τj;
当Si和Sj满足dist(Si,Sj)≤min(τi,τj)时,判定Si和Sj相似并去除Sj;
其中:u∈{1,2,....,U},U为shapelet候选集Scandidate中shapelet的个数;
步骤4.3,以信息增益作为质量标准从高到低给shapelet候选集Scandidate中剩余的shapelet进行质量排序,并选择信息增益值最大的k个shapelet作为shapelet处理集S;
步骤5,为shapelet处理集S的属性配置文件,所述的shapelet处理集S对应的属性配置文件为一个3元组SPS=WPS,WES,WNES;
所述的WpS为畅通时间序列的距离集,所述的畅通时间序列的距离集WpS中包含有shapelet处理集S中的shapelet与交通领域的数据集的训练集中畅通时间序列集TP={TP1,TP2,...,Tv}中时间序列的距离值subdist(S,Tv);
所述的WES为堵塞时发生事故时间序列的距离集,所述的堵塞时发生事故时间序列的距离集WES中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时发生事故时间序列集TE={TE1,TE2,...,Tl}中的时间序列的距离值subdist(S,Tl);
所述的WNES为堵塞时未发生事故时间序列的距离集,所述的堵塞时未发生事故时间序列的距离集WNES中包含有shapelet处理集S与交通领域的数据集的训练集中堵塞时未发生事故时间序列集TNE={TNE1,TNE2,...,Tm}中的时间序列的距离值subdist(S,Tm);
所述的属性配置文件用于判断时间序列是否发生交通事故;
步骤6,选取交通领域数据集中的时间序列,对所述的时间序列与shapelet处理集S进行距离计算,结合步骤5中得到的属性配置文件对时间序列进行判断:
当时间序列与shapelet处理集S中shapelet的距离值处于畅通时间序列的距离集WPS的距离值区间时,判断该时间序列为畅通时间序列;
当时间序列与shapelet处理集S中shapelet的距离值处于堵塞时发生事故时间序列的距离集WES的距离值区间时,判断该时间序列为堵塞时发生事故时间序列;
当时间序列与shapelet处理集S中shapelet的距离值处于堵塞未发生事故时间序列的距离集WNES的距离值区间时,判断该时间序列为堵塞未发生事故时间序列。
2.如权利要求1所述的基于快速提取shapelets的分类算法判断交通事故的方法,其特征在于,所述堵塞相关的时间序列子序列具体为:
堵塞发生前时间序列的子序列、堵塞发生时同时间段过去时间序列的子序列、堵塞开始后时间序列的子序列、堵塞开始到结束期间时间序列的子序列、堵塞结束时同时间段过去时间序列的子序列和堵塞结束后时间序列的子序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110311321.3/1.html,转载请声明来源钻瓜专利网。