[发明专利]基于聚类算法的异常数据检测方法及装置在审
申请号: | 201910752335.1 | 申请日: | 2019-08-15 |
公开(公告)号: | CN110647913A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | 杨春春 | 申请(专利权)人: | 中国平安财产保险股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11015 北京英特普罗知识产权代理有限公司 | 代理人: | 程超 |
地址: | 518048 广东省深圳市福田区益田路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多个属性 异常数据检测 标识生成 检测结果 聚类算法 属性标识 属性内容 属性信息 属性组合 统计结果 异常数据 统计 | ||
本发明提供一种基于聚类算法的异常数据检测方法及装置,方法包括:获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;根据多个属性标识生成多个属性组合;针对每条所述待测数据,统计对应各个属性组合的值;根据统计结果计算每条所述待测数据的特征值;根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。本发明,通过针对多个属性组合来统计每条待测数据的特征值,使得异常数据的检测结果更加准确。
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于聚类算法的异常数据检测方法及装置。
背景技术
随着大数据的兴起,数据处理的需求变得越来越大,范围也逐渐变广。然而,随着数据量的增多,数据中会存在异常数据。现有技术中一般是针对单一特征进行异常检测,准确度较低。
发明内容
本发明的目的是提供一种基于聚类算法的异常数据检测方法及装置,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种基于聚类算法的异常数据检测方法,所述方法包括以下步骤:
获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;
根据多个属性标识生成多个属性组合;
针对每条所述待测数据,统计对应各个属性组合的值;
根据统计结果计算每条所述待测数据的特征值;
根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。
可选地,所述根据多个属性标识生成多个属性组合,包括:
在每条所述待测数据包括n个属性标识时,生成的多个属性组合包括:将每一个属性标识分别作为一个属性组合,将每两个属性标识分别作为一个属性组合,将每三个属性标识分别作为一个属性组合,…,将每(n-1)个属性标识分别作为一个属性组合,将n个属性标识作为一个属性组合;
其中,n为不小于1的整数;生成的属性组合个数为:
其中,N用于表征生成的属性组合的个数。
可选地,所述针对每条所述待测数据,统计对应各个属性组合的值,包括:针对当前所述待测数据,统计在所述多条待测数据中,与当前所述待测数据中当前属性组合的属性内容相同的待测数据的条数,将统计的条数作为该当前所述待测数据中当前属性组合的值。
可选地,所述根据统计结果计算每条所述待测数据的特征值,包括:针对当前所述待测数据,将统计的当前所述待测数据对应的各个属性组合的值相加,作为当前所述待测数据的特征值。
可选地,所述根据每条所述待测数据的特征值,确定各条所述待测数据是否异常,包括:将多条所述待测数据的特征值进行聚类,形成多个类簇,针对每个类簇:确定类簇的中心点,从该类簇中依次删除一个数据,并计算删除该数据后该类簇的目标参数,在计算的目标参数与初始目标参数的差值大于预设的目标偏离阈值时,将该删除的数据确定的离群点,将离群点对应的所述待测数据确定为异常数据。
可选地,进一步包括:对确定异常数据的所述待测数据进行标记,并在数据清洗过程中,将标记的所述待测数据清洗掉。
可选地,在所述获取多条待测数据之后,还包括:确定所述待测数据中每个属性内容对应的格式,将属性内容与对应格式不同的待测数据确定为异常数据。
为实现上述目的,本发明还提供了一种基于聚类算法的异常数据检测装置,所述方法包括以下内容:
获取模块,用于获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安财产保险股份有限公司,未经中国平安财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910752335.1/2.html,转载请声明来源钻瓜专利网。