[发明专利]一种决策表数据约简方法有效
申请号: | 201610996984.2 | 申请日: | 2016-11-09 |
公开(公告)号: | CN106599049B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 尹林子;许雪梅;丁家峰;蒋昭辉;李乐;李靖 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 汤财宝 |
地址: | 410083 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 决策 数据 方法 | ||
本发明提供一种决策表数据约简方法,所述方法包括:步骤1,判断决策表数据集中最后一个条件属性是否为决策表核属性,如果是则将该属性的数据加入约简集R,执行步骤2;否则删除最后一列条件属性数据,重新执行步骤1;步骤2,将所述决策表核属性对应的列数据放到第一列,确定满足结束条件后,输出约简集R,否则返回步骤1。本发明具有简单高效地对决策表数据进行约简的有益效果。
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种决策表数据约简方法。
背景技术
目前,随着数据采集、存储技术的快速发展,数据冗余的问题越来越严重,它不仅极大地浪费存储空间,也会显著降低基于数据的建模、决策等算法的性能。粗糙集理论是一种专门约简数据、从数据中提取有效信息的理论。该理论的核心在于数据约简,通过将不重要的、冗余的数据以及属性删除,从而获得一个包含完整信息的精简的新数据集,为基于数据的分析、建模、决策等提供优质的源数据。
传统的数据约简方法常采用基于属性重要度的启发式约简结构。其方案表述如下:步骤1,数据集预处理,并计算决策表核属性集;步骤2,计算每个属性的重要度;步骤3,挑选具有最大重要度的属性;步骤4,基于所有已挑选的属性修改数据集;步骤5,判断是否满足算法结束条件,如果满足则输出已挑选的属性集,否则跳到步骤2。传统启发式约简方法的特点在于需要计算属性重要度以及整个决策表核属性集。尤其是属性重要度的定义与计算吸引了很多研究者的注意,并取得了大量的成果。
然而,这种传统的启发式约简结构存在一些不足,主要表现在:第一,重要度计算次数太多,步骤2会被执行多次,大部分属性的都会被多次计算重要度,如果步骤4采用加法模式,则重要度需要计算(2|C|-|R|+1)*|R|/2次,如果步骤4采取减法模式,则重要度需要计算(|C|+|R|+1|)*(|C|-|R|)/2次,因此,不管属性重要度的计算公式是否简单,都需要浪费大量的时间;第二,基于属性重要度的随机性启发问题,现有的属性重要度计算方法都有可能产生多个具有最大重要度的属性,已有的解决办法常常在步骤3中进行随机选择,这将对属性约简的结果以及分类精度产生一个难以预知的影响。
发明内容
本发明为克服上述问题或者至少部分地解决上述问题,提供一种更简单的启发式约简结构,为高速约简算法设计提供结构层面的理论支持与实现方法。
根据本发明的一个方面,提供一种决策表数据约简方法,包括:步骤1,判断决策表数据集中最后一个条件属性是否为决策表核属性,如果是则将该属性的数据加入约简集R,执行步骤2;否则删除最后一列条件属性数据,重新执行步骤1;步骤2,将所述决策表核属性对应的列数据放到第一列,确定满足结束条件后,输出约简集R,否则返回步骤1。
本申请提出一种决策表数据约简方法,利用决策表核属性判断来代替传统的属性重要度计算;利用排序技术构建高效的决策表核属性判断算法以及正域计算算法;每个属性最多计算一次,要么保留,要么丢弃;在启发过程中会不断删除冗余的列数据,以减少后续启发过程的时间以及空间复杂度。具有如下有益效果:1、本发明克服了传统的基于属性重要度约简结构的缺陷。表现在:抛弃了传统的属性重要度概念,不需要设计重要度计算公式,也不存在属性启发的随机性问题,计算结果客观,可重复性好;2、本发明的方法结构简单。表现在:每个属性最多计算一次,而传统方法的属性需要多次计算;其次,本发明不需要在启发之前计算整个决策表核属性集;3、本发明的方法只涉及到排序与比较操作,计算简单,不仅在单机上易于实现,也适合在大数据平台上运行;4、本发明的方法计算速度快。通过采用本发明推荐的快速算法,可以快速计算一个完备的约简。
附图说明
图1为根据本发明实施例一种决策表数据约简方法的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610996984.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置