[发明专利]基于主动学习的异常数据检测方法在审
申请号: | 201910182491.9 | 申请日: | 2019-03-12 |
公开(公告)号: | CN109934354A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 赵晓永;王磊;李忱;闫阳 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06N20/20 | 分类号: | G06N20/20 |
代理公司: | 北京双收知识产权代理有限公司 11241 | 代理人: | 陈泉 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主动学习 学习器 异常数据检测 二元分类 无监督 标注 人类专家知识 平行子空间 扩展性 对比分析 基础学习 模型集成 模型应用 数据合并 数据集中 挖掘结果 学习结果 正常边界 全数据 数据集 准确率 工作量 抽样 评判 高地 监督 挖掘 投票 统计 | ||
1.一种基于主动学习的异常数据检测方法,其特征在于:
根据各种基础学习器的对比分析,选择基于统计的和基于相似性的模型、基于轴平行子空间划分的无监督模型作为基学习器;
将各基学习器评判的离群分数处于离群和正常边界的数据合并后呈现给人类专家进行标注;
从标注的数据集和各基学习器投票产生的数据集中抽样训练有监督二元分类模型,将该模型应用于全数据集,得出最终的挖掘结果。
2.根据权利要求1所述基于主动学习的异常数据检测方法,其特征在于:使用分析对比后选择的无监督基学习器对原始数据进行离群挖掘,根据各基学习器的输出,采用算法1呈现出少量重要数据给专家进行标注,采用算法2的集成方式产生部分带标注的训练数据集,并与专家标注的数据集整合后,去训练二元监督分类模型,然后将该模型应用到原始数据上,得到最终的离群挖掘结果。
3.根据权利要求1所述基于主动学习的异常数据检测方法,其特征在于:将离群点检测转换为有监督的过程,构造出用于训练的有标注数据集,标注主要来源于两个方面:人类专家的标注和基学习器的结果整合。
4.根据权利要求1所述基于主动学习的异常数据检测方法,其特征在于:算法1人类专家标注训练集构建算法如下:
从各基学习器的输出数据S中,根据学习器的评分,获取处于离群和正常边界的离群数据各m条、正常数据各n条,则从S中可得到待标注离群数据集A和待标注的正常数据集N;
将待标注离群数据集A和待标注的正常数据集N分别合并去重后可得待标注离群数据集A和待标注的正常数据集N;
在A和N中重复的数据,将其从N中删除;
将A和N按照离群程度降序排列后呈现给人类专家进行标注;
A和N合并为D并输出,算法结束。
5.根据权利要求4所述基于主动学习的异常数据检测方法,其特征在于:
算法2基学习器投票标注训练集算法如下:
将各基学习器的输出S拆分为离群数据集Sa和正常数据集Sn;
对Sa进行简单投票,将在一半以上数据集中出现的,作为训练用的离群数据集A;
从Sn的交集中抽样,作为训练用的正常数据集N;
A和N合并为E并输出,算法结束。
6.根据权利要求5所述基于主动学习的异常数据检测方法,其特征在于:
将算法1和算法2的输出结果D和E合并形成最终的训练数据集,当遇到标注冲突的数据时,以D中的标注为准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910182491.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:类人脑智慧机
- 下一篇:基于唯一标识的设备管理的方法及系统