[发明专利]基于谱聚类的异常点比例优化方法、装置及计算机设备有效
申请号: | 201910079172.5 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109871886B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 杨志鸿;徐亮;阮晓雯 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F18/23 | 分类号: | G06F18/23;G06F18/2433 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 林燕云 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 谱聚类 异常 比例 优化 方法 装置 计算机 设备 | ||
本发明公开了基于谱聚类的异常点比例优化方法、装置及计算机设备。该方法包括:通过接收待分类数据点集合,通过谱聚类将待分类数据点集合进行聚类得到多个聚类簇;获取各聚类簇对应的数据点,根据预设的当前异常点比例及各聚类簇,构建与各聚类簇一一对应的孤立森林模型;通过不断调整当前异常点比例,直至平均欧式距离变动幅度超出变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;将所选定的聚类簇根据最优异常点比例进行分类,得到最优分类结果。该方法采用谱聚类实现了对海量数据分类,然后分别对各聚类簇同时进行异常点检测和最优异常点比例自动获取,根据最优异常点比例对各聚类簇的数据进行异常点检测,准确率得到了提升。
技术领域
本发明涉及智能决策技术领域,尤其涉及一种基于谱聚类的异常点比例优化方法、装置及计算机设备。
背景技术
异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响。目前,当云服务器接收了海量的数据并需对其进行异常点检测是,若仅将海量数据视为只有一个中心的数据集,会导致用于异常点检测的无监督模型的区分效果较差,无法准确的检测出异常点。而且无监督模型在检测前的异常点比例的设置依赖用户经验,导致设置难度较大。
发明内容
本发明实施例提供了一种基于谱聚类的异常点比例优化方法、装置及计算机设备,旨在解决现有技术中海量数据视为只有一个中心的数据集,会导致用于异常点检测的无监督模型的区分效果较差,无法准确的检测出异常点的问题。
第一方面,本发明实施例提供了一种基于谱聚类的异常点比例优化方法,其包括:
接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;
获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;
将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
判断所述平均欧式距离变动幅度超出预设的变动幅度阈值;
若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
第二方面,本发明实施例提供了一种基于谱聚类的异常点比例优化装置,其包括:
谱聚类单元,用于接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;
孤立森林模型训练单元,用于获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;
正常点中心获取单元,用于将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910079172.5/2.html,转载请声明来源钻瓜专利网。