[发明专利]一种基于竞争重构学习的半监督异常检测方法有效
申请号: | 201811317051.1 | 申请日: | 2018-11-07 |
公开(公告)号: | CN109543727B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 周水庚;田凯;关佶红 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/82;G06N3/04 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 竞争 学习 监督 异常 检测 方法 | ||
本发明属于机器学习技术领域,具体为一种基于竞争重构学习的半监督异常检测方法。本发明设计两个解码器对样本数据进行竞争重构,它们共享一个编码器以使得数据映射到同一个子空间中,在正样本的标签信息的辅助下,正样本解码器会对正样本有更小的重构误差,而负样本(异常数据)解码器对负样本的重构误差会更小。本发明方法框架简单、使用方便、可扩展性强、可解释性强,在七个主流异常检测数据集进行了实验,达到或超过现有最好方法的水平。本发明能够为计算机视觉、数据挖掘等领域,提供基础框架和算法的支持。
技术领域
本发明属于机器学习技术领域,具体一种基于竞争重构学习的半监督异常检测方法。
背景技术
异常检测是识别不符合预期正常模式的数据。这些数据可能来自新类或一些没有意义的噪声数据。通常,我们称这些异常数据异常值(Outliers),以及正常数据的内点(Inliers)。异常检测与许多实际应用密切相关,如异常检测,计算机视觉领域的新奇检测和医学诊断,药物发现生物信息学。它可以归类为单类学习,其中负类的概况没有很好地定义。根据实际应用背景,负样本可能难以收集或验证。此外,可能存在任何不可预测的异常数据。因此,这些数据被认为是新颖的(或异常值),而正样本(或内部)则由训练数据很好地表征。由于分类器的惰性,很难使用传统的多类分类方法来仅学习正样本数据。
在过去的几十年中,研究人员提出了许多处理异常检测问题的方法。通常,这些方法要么为正样本示例构建模型描述,要么将违反正常描述的示例识别为异常值,或者基于异常的统计或几何度量明确地隔离异常值。通常,不同的模型具有不同的表征数据分布的能力。大多数传统方法是具有有限模型容量的线性模型。虽然核函数可用于提高其模型容量,但它不适用于高维和大规模数据的情况。
最近,深度学习方法已经显示出其强大的表现能力,并在许多应用中获得了巨大的成功。然而,由于负样本不可用,很难直接训练有监督的深度神经网络用于单类分类。虽然已经做了一些工作来学习单分类器,但是大多数都无法建立异常检测的判别模型。通过它们都是选择预定义的阈值来完成检测。从概率的角度来看,可以解释为异常值应位于模型分布的低密度区域。但是,由于异常值是不可预测的,因此很难确定适用于所有情况的阈值。同时,由于模型仅针对正数据进行训练,因此过度拟合是另一个可能破坏模型泛化性能的关键因素。这就是为什么不能简单地根据正样本数据训练深度神经网络分类器的原因。虽然可以使用一些策略,例如提前停止策略以避免过度拟合,但它非常棘手,无法确定何时停止对测试数据最佳。
发明内容
针对以上现有技术中的问题,本发明的目的在于提出一种基于竞争重构自动编码器异常检测方法。基于竞争重构学习的半监督异常检测方法。
受无监督异常值去除方法的启发,直接从未标记数据中学习判别模型,本发明的模型具有监督和非监督方法的优点。本发明制定了一种用于异常检测的转导半监督方法,该方法使用正训练数据和未标记的测试数据进行学习。图1展示了本发明的方法和大多数现有方法之间的学习过程的差异。本发明所提出的架构与经典自动编码器不同,本发明的架构包括一个编码器和两个解码器而经典的自动编码器由一个编码器和一个解码器组成。其中,两个解码器设计成在重构过程中进行竞争学习,其中一个用来学习重构正样本,称其为正样本解码器,另一个用来学习重构异常值,其称为负样本解码器。在正样本训练数据的指导下,正样本解码器可以为正类建立适当的分布,而大多数异常数据将被分配给负样本解码器。通过比较这两个解码器的重构误差来完成判别式标记。训练之后,最终的样本分配是对未标记(或测试)数据的预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811317051.1/2.html,转载请声明来源钻瓜专利网。