[发明专利]一种基于模糊距离的不确定离群点检测方法在审

申请号：	201510752402.1	申请日：	2015-11-06
公开（公告）号：	CN105426907A	公开（公告）日：	2016-03-23
发明（设计）人：	刘文婷	申请（专利权）人：	河海大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	210098 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模糊距离不确定离群检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于模糊距离的不确定离群点检测方法。

背景技术

离群数据挖掘技术是目前数据挖掘领域的研究热点之一，目前已有的离群数据挖掘主要基于距离或最近邻概念进行的确定离群挖掘，随着互联网和移动互联网的广泛普及，大量的不确定数据在金融和经济分析、电子通信、现代物流等不同领域广泛应用，数据本身的不确定性，难以准确判断数据是否异常，导致难以给出确切的离群数据。在不确定的数据集，即使一个数据点本身并不像是一个离群点，但如果它的不确定程度非常高，这个数据也很可能会被怀疑是异常的。因此基于不确定数据集的离群检测，需要确定每个数据的不确定程度即离群度。

发明内容

本发明所要解决的技术问题在于，提供一种基于模糊距离的不确定离群点检测方法，可以有效地从不确定数据集中发现隐藏在其中的离群数据，确定每个数据的离群度，可以广泛应用于金融和经济分析、电子通信、现代物流等领域。

为了解决上述技术问题，本发明提供了一种基于模糊距离的不确定离群点检测方法，包括：

计算不确定数据集中，各数据点到其对应邻域中的每一数据点的模糊距离；

对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算，得到各数据点的邻域平均距离；

根据所述邻域平均距离计算得到各数据点的可达距离；

根据所述可达距离计算各个数据点的离群度，并选择离群度大于预设阈值的数据点为离群点。

进一步的，所述计算不确定数据集中，各数据点到其对应邻域中的每一数据点的模糊距离，具体包括：

将不确定数据集形式化；其中，形式化后的不确定数据集为D＝{X₁,X₂,…,X_n}，其中，n表示不确定数据集D的大小，X_i表示数据集中的第i个元组，X_i之间相互独立，且X_i＝〈r(X_i),p(X_i)〉，r(X_i)表示数据记录，p(X_i)表示数据记录的概率值；

根据所述不确定数据集建立可能世界实例，并计算所述可能世界实例的概率均值；其中，对不确定数据集中的数据点o建立的可能世界实例为可能世界实例W(o)的概率均值为|W(o)|表示W(o)中数据点的个数；

根据建立的可能世界实例计算数据点和其邻域中的每一数据点的模糊距离；其中，数据点o到其邻域中的数据点p的模糊距离为ud(p,o)＝p_N(o)d(o,p),p∈N(o)，式中，d(o,p)＝|o-p|为数据点o、p之间的距离，且p≠o}表示数据点o的邻域，p_N(o)为数据点o的邻域N(o)的概率。

进一步的，所述对所述各数据点和其邻域中的每一对象的模糊距离进行加权计算，得到各数据点的邻域平均距离，具体包括：

对所述各数据点和其邻域中的每一对象的模糊距离进行加权计算，得到各数据点的邻域平均距离，其中，数据点o的邻域平均距离为式中，|N(o)|表示N(o)数据点的个数。

进一步的，所述根据所述邻域平均距离计算得到各数据点的可达距离，具体包括：

根据所述邻域平均距离选取各数据点的最小邻域；其中，数据点o的最小邻域N(o)_min为N(o)中满足条件p_N(o)≥θ和R_avg(N(o))最小的邻域，θ表示阈值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510752402.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模糊距离的不确定离群点检测方法在审

专利文献下载