[发明专利]一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法在审
申请号: | 201410143640.8 | 申请日: | 2014-04-10 |
公开(公告)号: | CN103942286A | 公开(公告)日: | 2014-07-23 |
发明(设计)人: | 张永军;杨利娟 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 相关系数 进行 相关性 分析 贝叶斯 分类 数据 挖掘 方法 | ||
技术领域
本发明涉及一种基于Hadoop的贝叶斯分类数据挖掘方法,尤其涉及一种能够在分类预测结果的基础上利用相关系数分析预测因子和目标因子相关性的基于Hadoop的贝叶斯分类数据挖掘方法。
技术背景
现有的贝叶斯分类数据挖掘方法。主要是对事先选定的一些预测因子和目标因子进行预处理、模型训练、精度评估等处理以达到分类预测的目的,既在已知预测因子的情况下,推断出目标因子最大可能出现的值。这种方法:
用户事先选定可能与目标因子具有相关性的预测因子,但当选取的预测因子和目标因子相关性不大或者不相关时,如果还按照原有的步骤进行处理,不仅分类预测结果不可靠,最终的精度评估也无法达到令人满意的结果,而且还浪费时间和影响算法的效率。
由此可见,现有的贝叶斯分类数据挖掘方法具有比较大的缺点及限制,无法满足人们的需要。
本发明内容
为了解决现有技术中存在的问题,本发明提供了一种能够在分类预测结果的基础上利用相关系数分析预测因子和目标因子相关性的基于Hadoop的贝叶斯分类数据挖掘方法。
本发明解决现有技术的问题,所采用的技术方案是:提供一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法,其包括以下步骤:初步选定一些可能与目标值具有相关性的预测因子,对预测因子和目标因子进行模型训练,再对训练结果进行相关性分析,如果预测因子和目标因子相关性不大或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;如果预测因子和目标因子相关性很大或者相关时,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是该方法在Hadoop上利用其分布式文件系统HDFS和MapRe duce并行编程模型来实现。
Hadoop文件系统HDFS是分布式计算的存储基础,它具有高容错性,可以部署在廉价的硬件设备上,适合那些有大数据集的应用,并提供了对数据读写的高吞吐率。
MapReduce编程模型将运行大规模的集群上的复杂的并行计算抽象为两个函数:Map函数和Reduce函数。首先将一个大任务分割为多个并行的Map任务块,然后将Map分别给集群中的各个节点进行运算,最后Reduce把分解后的多个任务块的处理结果汇总起来,从而得到最终的结果。因此,MapReduce可处理的任务应满足:待处理的任务(或数据集)可以分割成许多个小任务(或小数据集),并且每一个小任务(或小数据集)都可以完全的并行计算。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是对原始数据进行预处理,以去掉不正确或被损坏的无效数据和离散化原始数据。
预处理又可分为三个部分:第一是数据的选取,其目的是确定挖掘的操作对象;第二是数据的预处理,海量的原始数据一般都存在偏差和缺失的情况,这些数据若被用于数据挖掘,则在进行数据挖掘之前必须进行数据的预处理,去除数据中的噪声、冗余以及对缺省值进行填充等;第三是数据的转换,数据转换的方式也有所不同,针对特定的挖掘算法,将数据转换成相应的分析模型,建立的适合挖掘算法的分析模型是数据挖掘成功的关键。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案将原始数据分成两部分训练集和测试集,前者用来训练贝叶斯分类器模型,后者用来测试分类器的精度。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是对进行预处理后的训练集运行MapReduce实现的贝叶斯分类算法,得到贝叶斯分类模型。
朴素贝叶斯假设当给定类变量时,属性变量之间条件相对独立。设有限集合C,cj是C的第j类决策属性,集合Ω中n个属性变量X1,X2…Xn,其给定的描述属性值为x1,x2…xn,{x1,x2…xn,cj}是由已知类别的样本组成的集合。对C进行预测的分类器为朴素贝叶斯分类器.即
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410143640.8/2.html,转载请声明来源钻瓜专利网。