[发明专利]异常点比例优化方法、装置、计算机设备及存储介质在审
申请号: | 201910079156.6 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109919186A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 杨志鸿;徐亮;阮晓雯 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 林燕云 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 欧式距离 异常点 分类样本 计算机设备 比例优化 变动幅度 存储介质 数据点 异常类 欧氏距离 有效减少 分类 构建 工作量 孤立 更新 森林 | ||
本发明公开了异常点比例优化方法、装置、计算机设备及存储介质。该方法包括:根据当前异常点比例及待分类样本构建孤立森林模型;将待分类样本进行分类得到正常点中心,获取异常类别的各数据点与其的平均欧式距离,以作为当前状态平均欧式距离;通过当前异常点比例减步长以更新当前异常点比例;将待分类样本根据其进行分类,得到当前异常类别的各数据点与正常点中心的平均欧式距离以作为下一状态平均欧式距离;通过其与当前状态平均欧式距离之差除以步长,得到平均欧式距离变动幅度;若其超出变动幅度阈值,将当前异常点比例加步长作为最优异常点比例。该方法通过运用欧氏距离与正常点中心相结合的方法,可有效减少选择最优异常点比例的工作量。
技术领域
本发明涉及智能决策技术领域,尤其涉及一种异常点比例优化方法、装置、计算机设备及存储介质。
背景技术
对于无监督模型的异常点检测,目前常见的异常点检测方法可以给出每个样本的异常得分,使用者可以根据异常得分的大小,设置阈值以将样本划分为正常样本以及异常样本。但是设置异常点的比例和阈值往往需要根据经验来设置,导致设置难度较大,而且所设置异常点的比例和阈值的好坏也会直接影响到无监督模型的好坏。
发明内容
本发明实施例提供了一种异常点比例优化方法、装置、计算机设备及存储介质,旨在解决现有技术中无监督模型的异常点检测时要根据经验来设置设置异常点的比例和阈值,设置难度大,而且所设置异常点的比例和阈值也会影响到无监督模型的异常点检测准确度的问题。
第一方面,本发明实施例提供了一种异常点比例优化方法,其包括:
接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;以及
若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
第二方面,本发明实施例提供了一种异常点比例优化装置,其包括:
初始构建单元,用于接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
分类单元,用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
第一计算单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
第一比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
第二计算单元,用于将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
变动幅度计算单元,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910079156.6/2.html,转载请声明来源钻瓜专利网。