[发明专利]一种以聚类法进行边界数据分析的方法及其系统有效
申请号: | 201911075244.5 | 申请日: | 2019-11-06 |
公开(公告)号: | CN110851414B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 金梦;赵健;王吉川;高睿;张放;李柏磊;李嘉;殷安平;汪心玲;金雪娇;邵微;段跃;李绍峰 | 申请(专利权)人: | 云南艾拓信息技术有限公司;昆明市公安局 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F18/23213;G06Q50/26 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 沈艳尼 |
地址: | 650106 云南省昆明市高*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 聚类法 进行 边界 数据 分析 方法 及其 系统 | ||
1.一种以聚类法进行边界数据分析的方法,其特征在于经过下列各步骤:
步骤1:采集边界数据交换过程中产生的各类日志数据,获得标准数据合集;
步骤2:结合实际应用,从上述日志数据中确定关键变量,从标准数据合集中提取相对应的关键变量数据;根据先验经验和交叉验证,预设关键变量和阈值K,并选择K个点作为初始质心;
步骤3:将关键变量数据代入以下列式(1)的K-means算法进行聚类分析,计算出关键变量x与每个质心μi的欧式距离E,其中,i=1~k:
式中,x为关键变量,Ci为簇划分后的簇代号,即C1,C2,C3…Ck;
首次计算时,μi为步骤2选择的初始质心数据,通过分别计算出关键变量x与μ1~μk每个质心的欧式距离E,从而判断x归属于欧式距离E最小的质心所在的簇,当全部关键变量都以式(1)计算后,每个关键变量就被划分到相应的簇C1,C2,C3…Ck里,得到分簇结果;
然后,每个簇采用式(2),μ'i为簇Ci的均值向量,重新计算簇内的新质心μ'i:
当K个簇都重新计算出质心后,得到新的质心μ'i,其中,i=1~k,此时再采用式(1),重新计算关键变量x归属于的簇;通过不断迭代,直到采用式(1)计算的关键变量x归属的簇稳定,用式(2)重新计算的簇内质心也稳定,则表示迭代计算完成;得到聚类分析结果,即分类结果,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;
步骤4:对分类结果按业务可用性进行判断比对,即分类结果能否呈现边界数据交换平台的设备运行状态、链路运行状态以及业务传输状态,经常规数据验证后,显示分类结果符合预期的,则判断为分类合理;如分类结果不符合预期的,则判断为分类不合理,此时需调整关键变量、阈值K以及K个初始质心,再重新进行聚类分析,直至结果符合预期;
步骤5:将判断为分类合理的分类结果建表单存储,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;
步骤6:实时采集单条边界交换数据信息,代入步骤3的K-Means算法表达式进行聚类分析,得到聚类分析结果R;该聚类分析结果R包括该条信息关键变量的数值大小以及所归属的簇,其所归属的簇是上述K个簇中质心离该条信息数据的数值最近的簇,记为簇N;
步骤7:将上述聚类分析结果R与分类结果的表单中簇N的数据进行比对,即将聚类分析结果R中关键变量的数值与簇N质心的距离A,与簇N内原有数据离质心最远的距离B进行比较;
步骤8:根据实际使用需求预设离群点标识的次数阈值Y,并判断比较结果,对异常边界数据交换行为发出告警:
当A小于或等于B,则判断该条信息数据交换结果是正常的;
当A大于B,则判断该条信息数据交换结果是疑似异常数据;并对该疑似异常数据进行离群点标识;进而,再次采集同一来源的信息数据进行上述聚类分析并比较结果,再次出现疑似异常数据的情况,则继续标识为离群点;
对疑似异常数据被标识为离群点的次数进行统计,当离群点标识次数超出次数阈值Y,则判断为该边界交换行为异常,对该疑似异常数据源发出告警显示。
2.根据权利要求1所述的以聚类法进行边界数据分析的方法,其特征在于:所述步骤1的日志数据是指公安边界交换平台在进行某一业务的数据交换过程中,相关设备、链路以及数据交换系统产生的所有相关日志数据。
3.根据权利要求1所述的以聚类法进行边界数据分析的方法,其特征在于:所述步骤2的关键变量是能直接反应业务状态和设备运行状态的关键指标。
4.一种以聚类法进行边界数据分析的系统,采用权利要求1至3任一以聚类法进行边界数据分析的方法,其特征在于:包括数据采集模块、变量分析存储模块、聚类分析模块、聚类分析结果存储模块、聚类分析结果对比模块、离群点标识模块、离群点标识次数统计模块和告警模块,其中:
所述数据采集模块用于采集边界数据交换过程中产生的各类日志数据;
所述变量分析存储模块用于通过先验经验、统计分析或交叉验证,预设各类日志数据中的关键变量和阈值K,并用于存储及更新关键变量和阈值K;
所述聚类分析模块用于对关键变量数据进行聚类分析,得出聚类分析结果并建表单存储;
所述聚类分析结果存储模块用于存储实时采集的单条边界交换数据信息的聚类分析结果R;
所述聚类分析结果对比模块用于将聚类分析结果R和表单中所属分类簇的质心距离A,与簇内原有数据离质心最远的距离B进行比较;
所述离群点标识模块用于将比较结果中A大于B的疑似异常数据标识为离群点;
所述离群点标识次数统计模块用于预设离群点标识的次数阈值Y,并统计某数据源的数据被标识为离群点的次数,并分析是否超出次数阈值Y;
所述告警模块用于对超出次数阈值Y的数据向工作人员显示告警提醒信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南艾拓信息技术有限公司;昆明市公安局,未经云南艾拓信息技术有限公司;昆明市公安局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911075244.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有加热功能的航空航天用高效换气装置
- 下一篇:能量收集装置、组串、系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置