[发明专利]一种基于互信息的混合属性加权离群检测算法在审
申请号: | 202011444658.3 | 申请日: | 2020-12-08 |
公开(公告)号: | CN113033594A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 李俊丽 | 申请(专利权)人: | 晋中学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 太原高欣科创专利代理事务所(普通合伙) 14109 | 代理人: | 崔浩;冷锦超 |
地址: | 030619 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互信 混合 属性 加权 离群 检测 算法 | ||
1.一种基于互信息的混合属性加权离群检测算法,其特征在于:包括如下步骤:
步骤一:计算混合属性数据集数值空间和分类空间中各个属性的权值:
步骤1.1:互信息计算:分别计算混合属性数据集中的离散变量和连续变量的互信息;
步骤1.2:混合属性加权机制计算:给定一个混合属性数据集,定义任意属性的权值度量为该属性到其他属性互信息的平均值;
步骤二:计算每个数据对象在数值空间中的离群得分;
步骤三:计算每个数据对象在分类空间中的离群得分;
步骤四:通过步骤二和步骤三的离群得分综合得到每个混合属性数据对象的最终离群得分,并选出离群得分最高的离群数据对象。
2.根据权利要求1所述的一种基于互信息的混合属性加权离群检测算法,其特征在于:所述步骤1.1中离散变量的互信息计算如下:
给定一个包含n个数据对象的数据集DS,每个对象都由m个特征表示,用MI(yi:yj)表示数据集上计算的特征yi和yj之间的互信息,其中互信息的计算公式为:
上式中:Pij(yi=vik∧yj=vjl)为特征yi和yj分别等于vik和vjl的概率,di和dj为特征yi和yj的分类值个数,vik和vjl为集合D(yi)和D(yj)中的值,其中D(yi)={vi1,…,vidi},D(yj)={vj1,…,vjdj}。
3.根据权利要求2所述的一种基于互信息的混合属性加权离群检测算法,其特征在于:所述步骤1.1中连续变量的互信息计算步骤如下:
步骤12.1:用Parzen窗口估计法对随机变量的概率分布进行估计:定义数据集X={x1,x2,…,xn}由n个数据对象和m个属性组成,概率密度函数的估计为:
上式中:δ(·)为parzen窗口函数,h为窗口宽度;
步骤12.2:根据Gaussian窗口函数计算概率密度,计算公式为:
上式中:m为数据集的维度,z=x-xi,∑为z的协方差矩阵,h为窗口宽度的经验值,计算公式为:
步骤12.3:对两个连续随机变量,取维度m=2,根据步骤12.1和步骤12.2计算的概率密度估计两个连续变量的互信息。
4.根据权利要求3所述的一种基于互信息的混合属性加权离群检测算法,其特征在于:所述步骤1.2中混合属性加权机制的计算步骤如下:
步骤1.21:给定一个混合属性数据集O,O={o1,o2…,on}代表数据集的n个数据对象,数据集的属性集合Y由共m个属性组成;
其中,数值型属性有p个,分别为分类型属性有m-p个,分别为
分类型属性的值域表示为其中dj表示分类型属性中值域的数量;
混合属性数据集中的对象Oi∈O用一个m维向量表示,即其中
步骤1.22:对于任意属性yj,其属性权值度量定义为该属性到其他属性的互信息的平均值,计算公式为:
上式中:MI(yi:yj)表示数据集上计算的的特征yi和yj之间的互信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晋中学院,未经晋中学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011444658.3/1.html,转载请声明来源钻瓜专利网。