[发明专利]一种基于不确定数据集的离群检测方法在审
申请号: | 201510676188.6 | 申请日: | 2015-10-19 |
公开(公告)号: | CN105373806A | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | 刘文婷 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 不确定 数据 离群 检测 方法 | ||
技术领域
本发明涉及离群数据挖掘技术领域,特别涉及一种基于不确定数据集的离群检测方法。
背景技术
离群数据挖掘技术是目前数据挖掘领域的研究热点之一,目前已有的离群数据挖掘主要基于距离或最近邻概念进行的确定离群挖掘,随着互联网和移动互联网的广泛普及,大量的不确定数据在金融和经济分析、电子通信、现代物流等不同领域广泛应用,数据本身的不确定性,难以准确判断数据是否异常,导致难以给出确切的离群数据。在不确定的数据集,即使一个数据对象本身并不像是一个离群点,但如果它的不确定程度非常高,这个数据也很可能会被怀疑是异常的。因此基于不确定数据集的离群检测,需要确定每个数据的不确定程度即离群度。
发明内容
本发明为了解决现有技术中存在的上述缺陷和不足,提供了一种基于不确定数据集的离群检测方法,该方法可以有效地从不确定数据集中发现隐藏在其中的离群数据,确定每个数据的离群度,可以广泛应用于金融和经济分析、电子通信、现代物流等领域。
为解决上述技术问题,本发明提供一种基于不确定数据集的离群检测方法,包括以下步骤:。
步骤一,)计算不确定数据集D中每个数据点o的k距离和k距离邻域;
步骤二,计算k距离邻域中数据点q成为数据点o的近邻的概率;
步骤三,计算k距离邻域中每个数据点q到数据点o的可达距离和概率密度函数;
步骤四,计算每个数据点o的可达密度;
步骤五,计算每个数据点o的离群因子,确定离群点。
其中,所述步骤一包括以下步骤:
1-1)形式化数据集;
不确定数据集D表示为D={o1,o2,...oi...,on},n表示不确定数据集D大小,其中oi表示数据集中的一个数据点,每个数据点有d个维度,即d个属性值每个属性都关联一个概率密度函数fij(·)和累加分布函数Fij(·),则数据点oi表示为:
1-2)确定数据点o的k距离k_dist_ε(o);
k距离表示不确定数据集D中,对应每个数据点o的最小距离值,在k距离范围内存在至少k个最近邻居的概率不小于ε,记为k_dist_ε(o),其中k为正整数,ε∈(0,1];
1-3)定义数据点o的k距离邻域Nk_dist_ε(o);
k距离邻域表示在不确定数据集D中,与数据点o的最小距离小于k_dist_ε(o)的点的集合,表示为Nk_dist_ε(o):
Nk_dist_ε(o)={q|min_dist(q,o)<k_dist_ε(o)},
其中min_dist(q,o)表示k距离邻域中数据点q的分布范围与数据点o的分布范围的最小间隔;
1-4)采用迭代算法计算k距离k_dist_ε(o):
令po(k_d)表示数据点o在距离k_d∈(0,Rmax]范围内至少有k个邻域的概率,当k_d=k_dist_ε时,po(k_d)=ε;Rmax表示不确定数据集中两个数据点之间的最大距离;
a)初始化:
不确定数据集中两个数据点o之间的最小距离为0,用low表示,不确定数据集中两个数据点o之间的最大距离为Rmax,用up表示,因此,确定不确定数据集中两个数据点之间的距离k_d取值范围为(low,up],取中间值作为k_d的初始值,即k_d=(low+up)/2,并设定k距离邻域Nk_dist_ε(o)初始值为空集Φ,具体表示如下:
Nk_dist_ε(o)=Φ;low=0;up=Rmax;k_d=(low+up)/2
b)计算k距离k_dist_ε(o):
当|po(k_d)-ε|≥δ时,若po(k_d)<ε,则low=k_d,否则up=k_d;令k_d=(low+up)/2,直到|po(k_d)-ε|<δ成立,可以得出k_dist_ε(o)=k_d;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510676188.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置