[发明专利]一种基于北斗车联网的货车预警信息提取与风险识别方法有效

申请号：	201910773932.2	申请日：	2019-08-21
公开（公告）号：	CN110544373B	公开（公告）日：	2020-11-03
发明（设计）人：	杨小宝;郑留洋;高自友;毕军;闫学东	申请（专利权）人：	北京交通大学
主分类号：	G08G1/00	分类号：	G08G1/00;G06K9/62
代理公司：	北京卫平智业专利代理事务所(普通合伙) 11392	代理人：	张新利;谢建玲
地址：	100044***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于北斗联网货车预警信息提取风险识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于北斗车联网的货车预警信息的提取与风险识别的方法，其特征在于，包括以下几个步骤：

步骤1，通过设有北斗定位系统的车联网车载终端获取车辆预警相关的原始数据，原始数据包括：里程信息、安全预警信息、状态数据，所述状态数据包括车辆ID、ACC状态、上传时间；

步骤2，对原始数据进行预处理；

运用Python编程技术对原始数据进行预处理与筛选；在对原始数据进行分析之前，需要对原始数据进行清洗和整理，提高数据质量；数据清洗包括：填补数据中的缺失值、识别数据中的异常值和冗余数据；结合车载终端存储数据的特点，对原始数据进行预处理，具体做法如下：

步骤2.1，数据缺失值的操作：运用Python进行编程操作，引入Python之中的os、numpy模块，定义所需函数，执行main函数，对车载终端存储的文本文件进行操作，删除缺少属性值的文本文件，保证属性的完整性；

步骤2.2，数据异常值的操作：数据异常值包括里程异常、预警状态异常、上传时间异常；

1)里程异常处理：首先，遍历所有数据文件，计算车辆当日行驶里程，其次，做出车辆当日行驶里程累计分布图，确定车辆当日行驶里程的过大值点和过小值点；最后，剔除车辆当日行驶里程中数值过大或者过小的出行记录；

2)预警状态异常处理：对各个预警位的预警持续时长进行统计，求出预警位单次预警的持续时间，删除明显错误的预警状态；

3)上传时间异常处理：计算相邻上传点的时间差，剔除相邻“上传时间”差值不变点或者小于零的记录点；

步骤2.3，冗余数据的操作：遍历车辆当日出行的所有记录，对重复上传和当日数据规模较小的记录进行删除，具体为：对上传记录进行比对，删除重复上传的记录，重复执行直到遍历所有数据文件；对数据规模较小的记录，统计车辆当日出行时长，对小于15min的出行记录进行删除；

步骤3，车辆预警信息的关键变量提取；

根据车辆历史出行数据，提取车辆行驶预警信息中两个关键变量：车辆单位行驶里程的预警频次、车辆单位行驶时间的预警频次；首先，统计时段T天内每辆车的特定预警位的总预警频次，T为正整数；其次，统计时段T天内每辆车的总行驶里程；再次，统计时段T天内每辆车的总行驶时间；然后，计算每辆车在单位行驶里程的预警频次和单位行驶时间的预警频次；以车辆ID为唯一识别码，把同一ID车辆在不同时段的出行记录信息进行统计汇总；具体步骤为：

步骤3.1，统计时段T天内每辆车在特定预警位的预警频次；

以车辆的出行预警记录为对象，首先以车辆ID为唯一识别码，对每辆车在一天内的各个预警位的预警频次进行统计，再对选定的几个特定预警位进行累加，得到每辆车在一天内特定预警位的预警总频次，最后再对时段T天内同一ID车辆每天在特定预警位的预警频次进行累加，得到时段T天内每辆车在特定预警位的预警总频次；

步骤3.2，统计时段T天内每辆车的总行驶里程；

行驶里程是记录车辆仪表盘的里程变化，反映车辆的行驶距离；以车辆ID号为唯一识别码，对同一ID车辆的行驶里程进行累加，最终获得时段T天内每辆车的总行驶里程；

步骤3.3，统计时段T天内每辆车的总行驶时间；

车辆行驶时间不包含车辆因等待或者延误所损失的时间，车辆行驶时间提取的原理是：先计算车辆出行的总时间，然后计算停车时间，二者的时间差即为车辆的总行驶时间；然后，以车辆ID为唯一识别码，对时段T天内同一ID车辆的行驶时间进行累加，得到时段T天内每辆车的总行驶时间；

步骤3.4，基于步骤3.1得到的时段T天内每辆车在特定预警位的预警频次和步骤3.2得到的时段T天内每辆车的总行驶里程，两者相除，得到车辆单位行驶里程的预警频次；基于步骤3.1得到的时段T天内每辆车在特定预警位的预警频次和步骤3.3得到的时段T天内每辆车的总行驶时间，两者相除，得到车辆单位行驶时间的预警频次；

步骤4，车辆安全风险的聚类；

把车辆单位行驶里程的预警频次和车辆单位行驶时间的预警频次作为聚类对象，进行风险等级的划分；基于AGNES层次聚类算法对二维数据进行聚类；

具体为：

1)确定输入样本集O＝{(WFM₁，WFT₁),(WFM₂，WFT₂),...,(WFM_n，WFT_n)}以及聚类数目Z值，其中WFM_i和WFT_i分别代表是车辆i单位行驶里程的预警频次和单位行驶时间的预警频次，其中i＝1,2,…,n，n为样本个数，即车辆或驾驶员的总数量；

2)采用自底向上的聚类策略，以样本集O中每个对象O_i作为一个样本簇Φ_i，计算任意两个样本簇Φ_c和Φ_h之间的距离并比较各个距离，其中c≠h，寻找距离最近的两个样本簇Φ_h、Φ_c作为新的样本簇的集合，Φ_v＝Φ_h∪Φ_c，其中c、v、h为正整数，取值均小于等于n；

3)聚类簇距离度量函数；

其中两个簇之间的邻近度大小，由两个簇共同决定，采用平均距离计算任意两个样本簇之间的聚集度，聚集度用来表示两个样本簇的相似度；

G＝(WFM_g,WFT_g),Q＝(WFM_q,WFT_q) (6)

式中：Φ_h,Φ_c分别代表某个样本簇，|Φ_h|、|Φ_c|分别表示样本簇Φ_h,Φ_c中元素的个数，G,Q分别代表样本簇Φ_h,Φ_c中的某个样本，WFM_g表示车辆g单位行驶里程的预警频次，WFT_g表示车辆g单位行驶时间的预警频次，WFM_q表示车辆q单位行驶里程的预警频次，WFT_q表示车辆q单位行驶时间的预警频次，dist(G,Q)表示G,Q两个样本之间的欧氏距离；