[发明专利]一种自动化数据挖掘预处理方法有效
申请号: | 201510752372.4 | 申请日: | 2015-11-05 |
公开(公告)号: | CN105447090B | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 莫益军;尹强;廖振松 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 数据 挖掘 预处理 方法 | ||
本发明公开了一种自动化数据挖掘预处理方法,其特征在于,包括:建立数据库和预处理规则库,在该数据库中新建数据表且标准化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样后的预处理数据的每一个字段的值进行数理统计;提取数据表的关键字A、B和C,在预处理规则库中查询是否存在这些关键字,如果不存在则将数据表的关键字和所有字段添加到预处理规则库中,然后采用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则,并将其添加到原有规则库中。本发明通过对预处理结果进行评分和反馈,调整字段映射函数,提高预处理的质量。
技术领域
本发明属于数据挖掘领域,更具体地,涉及一种自动化数据挖掘预处理方法。
背景技术
在数据挖掘的工程应用中,数据预处理往往占到了80%甚至更多工作。学者们已经对数据挖掘的方法已经进行了大量的研究,并取得了一定的成果,但是,数据挖掘预处理,特别是如何自动化的进行数据预处理,仍然是一个问题。目前,已有一些企业和研究机构提出了一些数据挖掘预处理的方法。
例如,中国发明CN200910236744.2中提出了一种数据挖掘系统中数据预处理的方法、系统及装置,其中,数据预处理对应具有设定执行次序的多个预处理方式,主要技术方案包括:确定数据预处理对应的当前预处理方式;在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据该技术方案,减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。该发明提出了一种高效的分布式数据预处理方法,但是,无法对海量数据进行自动化数据预处理。
中国发明申请CN201210337315.6公开了一种基于excel的数据挖掘方法,借助excel工具和数据挖掘外接程序以及数据库来进来数据挖掘,通过对企业多年的经营的数据或者生产的数据进行挖掘,根据数据挖掘算法发现的有用的模式,可以运用这些模式来改善经营策略,提高劳动生产率,减少成本,增加企业利润。一般要进行数据挖掘需要专业的人员和花费大量的金钱才能实现,是一般中小企业所不能承受的。该发明阐述用excel来实现数据挖掘,可以让大部分懂excel的人都可以进行数据挖掘。该发明能让数据挖掘预处理变得更易操作,但是仍然需要耗费很大的工作量,无法对海量数据进行自动化数据预处理。
专利CN102609501A提出了一种基于实时历史数据库的数据预处理方法,涉及到实时历史数据库测点的创建、过程数据的采集、实时库数据的查询、数据特性分析,最后提出了一种以阈值和倍率为参数的横向清洗算法,将不同采集周期过程数据进行了描述,最终得到了过程控制数据采集减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。该发明通过一种基于历史数据库的方法,能够在一定程度上进行自动化的数据预处理,但是缺乏反馈和参数控制,因此预处理的质量无法得到保障。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种自动化数据挖掘预处理方法,其目的在于,通过构建规则库和样本库,将新数据与已有的样本数据进行字段映射,将新数据的字段变换成已有样本库中的特征字段,并使用相应的数据预处理方法进行自动化的数据预处理;同时,通过对预处理结果进行评分和反馈,调整字段映射函数,提高预处理的质量。
为实现上述目的,按照本发明的一个方面,提供了一种自动化数据挖掘预处理方法,包括以下步骤:
(1)建立数据库和预处理规则库,在该数据库中新建数据表且标准化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样后的预处理数据的每一个字段的值进行数理统计;
(2)提取数据表的关键字A、B和C,在预处理规则库中查询是否存在这些关键字,如果不存在则进入步骤(3),如果存在则跳转步骤(4);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510752372.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种知识地图生成方法及装置
- 下一篇:一种目的地未知的走失辨识方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置