[发明专利]一种基于模糊距离的不确定离群点检测方法在审
申请号: | 201510752402.1 | 申请日: | 2015-11-06 |
公开(公告)号: | CN105426907A | 公开(公告)日: | 2016-03-23 |
发明(设计)人: | 刘文婷 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 距离 不确定 离群 检测 方法 | ||
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于模糊距离的不确定离群点检测方法。
背景技术
离群数据挖掘技术是目前数据挖掘领域的研究热点之一,目前已有的离群数据挖掘主要基于距离或最近邻概念进行的确定离群挖掘,随着互联网和移动互联网的广泛普及,大量的不确定数据在金融和经济分析、电子通信、现代物流等不同领域广泛应用,数据本身的不确定性,难以准确判断数据是否异常,导致难以给出确切的离群数据。在不确定的数据集,即使一个数据点本身并不像是一个离群点,但如果它的不确定程度非常高,这个数据也很可能会被怀疑是异常的。因此基于不确定数据集的离群检测,需要确定每个数据的不确定程度即离群度。
发明内容
本发明所要解决的技术问题在于,提供一种基于模糊距离的不确定离群点检测方法,可以有效地从不确定数据集中发现隐藏在其中的离群数据,确定每个数据的离群度,可以广泛应用于金融和经济分析、电子通信、现代物流等领域。
为了解决上述技术问题,本发明提供了一种基于模糊距离的不确定离群点检测方法,包括:
计算不确定数据集中,各数据点到其对应邻域中的每一数据点的模糊距离;
对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算,得到各数据点的邻域平均距离;
根据所述邻域平均距离计算得到各数据点的可达距离;
根据所述可达距离计算各个数据点的离群度,并选择离群度大于预设阈值的数据点为离群点。
进一步的,所述计算不确定数据集中,各数据点到其对应邻域中的每一数据点的模糊距离,具体包括:
将不确定数据集形式化;其中,形式化后的不确定数据集为D={X1,X2,…,Xn},其中,n表示不确定数据集D的大小,Xi表示数据集中的第i个元组,Xi之间相互独立,且Xi=〈r(Xi),p(Xi)〉,r(Xi)表示数据记录,p(Xi)表示数据记录的概率值;
根据所述不确定数据集建立可能世界实例,并计算所述可能世界实例的概率均值;其中,对不确定数据集中的数据点o建立的可能世界实例为可能世界实例W(o)的概率均值为|W(o)|表示W(o)中数据点的个数;
根据建立的可能世界实例计算数据点和其邻域中的每一数据点的模糊距离;其中,数据点o到其邻域中的数据点p的模糊距离为ud(p,o)=pN(o)d(o,p),p∈N(o),式中,d(o,p)=|o-p|为数据点o、p之间的距离,且p≠o}表示数据点o的邻域,pN(o)为数据点o的邻域N(o)的概率。
进一步的,所述对所述各数据点和其邻域中的每一对象的模糊距离进行加权计算,得到各数据点的邻域平均距离,具体包括:
对所述各数据点和其邻域中的每一对象的模糊距离进行加权计算,得到各数据点的邻域平均距离,其中,数据点o的邻域平均距离为式中,|N(o)|表示N(o)数据点的个数。
进一步的,所述根据所述邻域平均距离计算得到各数据点的可达距离,具体包括:
根据所述邻域平均距离选取各数据点的最小邻域;其中,数据点o的最小邻域N(o)min为N(o)中满足条件pN(o)≥θ和Ravg(N(o))最小的邻域,θ表示阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510752402.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种平胸龟的仿生态养殖方法
- 下一篇:管角螺网笼吊养养殖方法