[发明专利]基于GMDH神经元网络的离群点检测方法及装置在审
申请号: | 201810257847.6 | 申请日: | 2018-03-27 |
公开(公告)号: | CN108229592A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 肖进;雷琴 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都厚为专利代理事务所(普通合伙) 51255 | 代理人: | 夏柯双 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练集 线性回归模型 神经元网络 样本 关键特征 离群点检测 子集 距离检测 数据维度 自适应 自组织 冗余 构建 建模 映射 剔除 重复 | ||
本发明公开了一种基于GMDH神经元网络的离群点检测方法及装置,其中方法包括:用n个样本构建第一训练集L;利用GMDH神经元网络找出第一训练集L的关键特征子集;根据所述关键特征子集映射得到第二训练集L',并根据第二训练集L'建立第一线性回归模型;将第二训练集L'中的样本i剔除后建立第二线性回归模型,并根据第一线性回归模型和第二线性回归模型计算样本i的库克距离Di;重复步骤S4直到训练集L'中每个样本的库克距离Di都计算得出,然后确定离群点:若Di>4/n,(i=1,2,…,n),则样本i为离群点。本发明通过使用GMDH神经元网络自适应建模,自组织地选择一部分关键特征,从而很好地消除了不相关或冗余的特征,减少数据维度,克服了库克距离检测方法的不足。
技术领域
本发明涉及离群点检测技术领域,特别是涉及一种基于GMDH神经元网络的离群点检测方法及装置。
背景技术
近年来,分类问题一直是数据挖掘领域的重要研究问题之一。它通过已知类别训练集的建模分析,从中发现分类规则,以此预测新的样本数据的类别。分类算法的应用领域非常广泛,现实中的很多问题,如网络文本分类、人脸识别、语音识别、医疗疾病诊断、信用风险评估以及客户流失预测等都属于分类问题。在现实社会中,用于分类的数据集中通常含有一部分与其他数据有着显著区别的数据,即离群数据。到目前为止,离群点还没有一个被普遍采纳的定义,Hawkins对离群点的定义在一定意义上揭示了离群点的本质:离群点与其他点如此不同,以至于让人怀疑它们是由另外一个不同的机制产生的。这些背离正常的数据如果不剔除,在进行分类训练的时候,可能会严重影响训练出的模型的分类性能。因此,在分类问题中进行离群点检测有着重要的意义。
对于离群点的检测,国内外学者提出了许多方法。这些方法大致可以分为以下五类:
(1)基于统计的方法。这种方法的主要思想时假定数据集服从某种分布或概率模型,通过不一致检验把哪些严重偏离分布曲线的记录视为离群点;其中最具代表性的方法是Cook’s distance值。
(2)基于距离的方法。这类方法最早由Knorr等提出,该方法对离群点的定义为:如果数据集中至少有pct个对象与对象o的距离大于D,则对象o是一个基于距离的关于参数pct和D的离群点,即DB(pct,D)离群点。
(3)基于密度的方法。Breunig等提出了局部离群点概念和基于密度的离群点定义,用局部离群系数(Local Outlier Factor,LOF)来表示一个对象的局部离群程度。
(4)基于聚类的方法。该类方法将离群点定义为不属于任何簇的对象。王欣提出了基于聚类和距离的离群点检测算法,该算法采用了剪枝,减少了离群点检测时数据点之间距离计算的次数。
(5)基于分类的方法。Hawkins等提出了一个基于神经网络的离群点检测方法,根据训练好的神经网络,每个样本可得到一个重建误差,从而以此来度量样本的离群程度。
上述几种离群点的检测方法各有优劣:基于距离或密度的离群点检测方法的时间复杂度较高;基于聚类的方法的主要目标是发现簇,而不是离群点,因此对离群点的挖掘效率较低;基于分类的离群点检测方法的有效性严重依赖于所使用的分类算法;基于统计的方法因为其检测性能稳定、时间复杂度较低且容易实现成为学术界最常用的方法,Cook’sdistance是统计方法中普遍使用的评价离群点的指标。然而,Cook’s distance方法也有不足,如在低维的数据集上,应用Cook’s distance检测离群点有很好的检测性能,但是在高维数据集上往往不能取得令人满意的效果,而且过多的数据特征不仅会使检测的计算时间大大增加,还会降低检测效果。然而,在现实的分类问题中,数据集往往为高维数据,因此Cook’s distance方法面临挑战。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810257847.6/2.html,转载请声明来源钻瓜专利网。