[发明专利]一种用于混合属性数据的模糊粗糙粒离群点检测方法在审
申请号: | 201910898517.X | 申请日: | 2019-09-23 |
公开(公告)号: | CN110659686A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 陈红梅;袁钟;李天瑞;桑彬彬;王澍 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 51245 成都盈信专利代理事务所(普通合伙) | 代理人: | 张澎 |
地址: | 611756 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模糊关系矩阵 离群点检测 混合属性 权重 近似 粗糙 模糊 表征数据 数据集 有效地 分类 | ||
1.一种用于混合属性数据的模糊粗糙粒离群点检测方法,集成不同属性下的粒离群程度和权重得到基于模糊粗糙粒的离群因子来表征数据对象的离群程度,具体包括如下过程:
所用符号定义和取值:
IS={U,C,V,f}表示一个混合属性信息系统,其中,U={x1,x2,…,xn}为对象集,C={c1,c2,…,cm}为属性集;V属性值域的并,即其中是属性cj的值域;f:U×C→V是一个信息函数,它满足对任意cj∈C和x∈U,有
设最小-最大标准化公式其中,和分别为关于属性cj的最大值和最小值;而模糊相似度阈值其中,std(cj)是关于cj的属性值标准差,λ用于调整模糊相似度阈值;
对任意cj∈C和对任意模糊关系矩阵其中
并假定关于Q的模糊关系矩阵
其中,是一个行向量组,
对任意xk∈U,模糊下近似和上近似的隶属度分别为
近似精度其中|·|表示集合·的基数;
具体步骤:
步骤1:输入待检测混合属性信息系统IS={U,C,V,f},离群点数eon;
步骤2:利用最小-最大标准化公式对原始数值属性值进行标准化处理,使得数值属性值的范围为[0,1];
步骤3:计算模糊相似度阈值
步骤4:对任意cj∈C,计算模糊关系矩阵
步骤5:对任意xi∈U,循环以下步骤:
步骤5.1:对任意cj∈C,计算模糊关系矩阵和近似精度并循环以下步骤:
步骤5.1.1:对任意ct∈C-{cj}(t≠j),计算模糊关系矩阵和
步骤5.1.2:计算粒离群程度
步骤5.2:对任意cj∈C,权重
步骤6:对任意xi∈U,计算基于模糊粗糙粒的离群因子
如果FRGOF(x)>μ,则添加到离群点集OS中,其中μ由用户经验值eon确定;当用户输入一个经验值eon来表示他们期望的离群点数后,μ的值将通过如下方式确定:
(1)通过每个对象xi的离群因子FRGOF(xi)降序排列,从而得到一个降序的对象序列
(2)μ被设置为中的一个数;
上述μ的设置方式将保证eon(eon=|OS|)个对象在U中必然具有更高的离群因子;因此,离群点集OS(Outlier Set,OS)作为最终离群点集输出;
步骤7:输出OS。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910898517.X/1.html,转载请声明来源钻瓜专利网。