[发明专利]一种基于区间划分的基站数据异常检测方法有效
申请号: | 201911329988.5 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111079089B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 刘海波;廖闻剑;卢山;张俊杰;张坤 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06F16/29 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 唐惠芬 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区间 划分 基站 数据 异常 检测 方法 | ||
本发明公开了一种基于区间划分的基站数据异常检测方法,包括:对原始轨迹数据集预处理,将处理后数据集划分为动态区间和静态区间;动态区间表示为任意多个连续的近邻孤立点的下标构成的范围,静态区间表示为原数据集中除去所有动态区间,所剩各数据片段的起止下标构成的范围;对所述动态区间使用多维高斯模型和滑窗距离模型进行异常点提取;对所述静态区间使用重心距离评分法进行异常点提取;使用五元组表示动态异常点和静态异常点,构成五元组集合表示异常点集。本发明所公开的方法,适合处理在线数据,时间短、准确度高,能有效评测新的异常模式,误判率较低。
技术领域
本发明公开了一种基于区间划分的基站数据异常检测方法,涉及人工智能计算机领域中的数据挖掘,特别是时空轨迹数据异常检测技术领域。
背景技术
随着定位技术和普适计算的蓬勃发展,人们的日常行为数据被多种方式采集,轨迹大数据因此诞生。轨迹大数据表现为定位设备所产生的大规模高速时空数据流,有效地对以数据流形式出现的轨迹大数据进行分析处理,可以发现隐含在轨迹数据中的异常现象,从而服务于城市规划、安全管控等应用。
现有的轨迹数据异常检测技术包括基于分类的检测、基于历史数据相似度的检测、基于距离的检测、基于聚类的检测等。这些法存在以下不足:
1.轨迹流数据中的异常是未知的、时变的,基于分类不适合处理在线数据;
2.基于距离的方法涉及大量轨迹数据的近邻查询和距离计算,时间开销大,准确度不高;
3.基于历史数据的方法,依赖大量历史数据,不能有效评测新的异常模式;
4.基于聚类的方法对特征和类簇的选取要求高,通常误判率较高。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于区间划分的基站数据异常检测方法,首先根据基站采集数据的特征将原始数据集划分成若干个子集,然后对不同类型的子集采用不同的模型进行求解。最终得到异常点候选集。
本发明为解决上述技术问题采用以下技术方案:
一种基于区间划分的基站数据异常检测方法,所述方法包括以下步骤:
步骤(1)、对原始轨迹数据集预处理,将处理后数据集划分为动态区间和静态区间;所述动态区间表示为任意多个连续的近邻孤立点的下标构成的范围,所述静态区间表示为原数据集中除去所有动态区间,所剩各数据片段的起止下标构成的范围;
步骤(2)、模型求解,对所述动态区间使用多维高斯模型和滑窗距离模型进行异常点提取;对所述静态区间使用重心距离评分法进行异常点提取;
步骤(3)使用五元组表示动态异常点和静态异常点,构成五元组集合表示异常点集。
作为本发明的进一步优选方案,步骤(1)中所述预处理的规则为:清洗数据中不包含预先设定的字段的数据;对清洗后的数据进行去重,并按时间排序。
作为本发明的进一步优选方案,步骤(1)中,利用动态区间搜索算法将原始轨迹数据集进行区间划分,包括以下步骤:
101、孤立点选取,令指定时间范围内仅出现一次的数据作为孤立点,表达公式如下:
其中,lt=(lont,latt)表示某个时刻t的空间位置,由该时刻的经度lon和纬度lat组成,表示以时刻ti为中心时刻的时间片段;
如果则lt为孤立点;
102、动态区间搜索,设定任意多个连续的近邻孤立点的起止下标构成的范围称为动态区间:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911329988.5/2.html,转载请声明来源钻瓜专利网。