[发明专利]一种基于χ2统计的连续属性离散化方法无效

专利信息
申请号: 200910220068.X 申请日: 2009-11-20
公开(公告)号: CN101777039A 公开(公告)日: 2010-07-14
发明(设计)人: 李克秋;桑雨;王哲 申请(专利权)人: 大连理工大学
主分类号: G06F17/10 分类号: G06F17/10;G06F17/18
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉
地址: 116085辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 sup 统计 连续 属性 离散 方法
【说明书】:

技术领域

发明属于数据挖掘领域,涉及到一种基于χ2统计的连续属性离散化方法,涉及基于概率与统计学的Chi2系列算法。

背景技术

现实生活中的数据往往包含连续值的属性,然而目前的归纳和分类算法往往依赖于离散值的属性,给机器学习的研究带来了不便。因此,连续属性离散化在数据挖掘、机器学习和知识发现等领域中起着非常重要的作用,受到了研究人员的关注。离散化的任务是把连续属性的取值范围或取值区间划分为若干个数目不太多的小区间,其中每个小区间对应着一个离散的符号。随着人们对该领域的广泛关注和深入研究,离散化算法已经得到了很大的发展,目前的离散化类型主要分为两个分支:自底向上(bottom-up)和自顶向下(top-down)的数据离散化方法,下面重点介绍自底向上的连续属性离散化方法——基于概率统计学的Chi2系列算法。

1992年,Kerber提出了Chimerge算法[Kerber R.ChiMerge:discretization ofnumeric attributes.Proceedings ninth national conference on artificial intelligence,AAAI Press,1992:123-128],它是一种局部的、有监督的自下而上的算法。该算法应用统计学原理通过检验χ2分布的显著性水平来判断样相邻区间是否应该合并。但是,Chimerge算法需预先人为设定合适的显著性水平值,因此它并不是一种全自动的离散化算法。1997年Liu等人对此进行了改进,提出了Chi2算法[Liu H.,Setiono R.Feature selection via discretization.IEEE transactions onknowledge and data engineering,1997,9(4):642-645]。该算法不需要人为预先设定显著性水平,而是采用令显著性水平值逐渐降低的方法,最后通过检验数据集的不一致率来确定是否终止离散化过程。在此基础上,2002年Tay等人对Chi2算法进行了进一步的改进,提出了Modified Chi2算法[Tay E.H.,Shen L.Amodified Chi2 algorithm for discretization.IEEE transactions on knowledge and dataengineering,2002,14(3):666-670]。该算法根据相邻区间的类别数,确定χ2分布显著性检验的自由度。2005年,Su等人认为Modified Chi2算法中对自由度的考虑仍然不够充分,提出应由代替差异并提出了相应的Extended Chi2算法[Su C.T.,Hsu J.H.An Extended Chi2 algorithm fordiscretization of real value attributes.IEEE transactions on knowledge and dataengineering,2005,17(3):437-441]。

然而,基于Chi2系列算法仍然存在三点不足:

首先,使用χ2值与给定显著水平下的临界值之差D除以对判定断点重要性缺乏相应的理论依据,同时在计算上也不精确;换句话说,离散化标准没有考虑决策类别数对区间在合并顺序上的影响,对于χ2值来说,它不仅与相临两个区间的自由度有关,同时也与决策类别数有关。

其次,合并标准的变化幅度仍然受自由度不同程度的影响,断点与断点之间存在竞争合并的机会,只是最大差异的断点合并的概率会大一些,所以仅仅以合并最大差异为标准是不合理的。

最后,χ2统计量中Eij取值也是不精确的。

下面是Chi2离散化相关方法的几个基本概念:

1)区间和断点

连续属性数据每个值为一个断点,两个断点构成一个区间。两个相邻的区间共有一个断点。连续属性离散化实际上就是根据一定的准则,消除断点,合并相邻区间的过程。

2)χ2

χ2是概率中的统计量,在该离散化算法中需要计算出相临区间的χ2值。χ2的计算方法为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910220068.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top