[发明专利]基于MapReduce的粗糙集并行约简方法、装置及系统有效
申请号: | 201410325508.9 | 申请日: | 2014-07-09 |
公开(公告)号: | CN104063230B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 席大超;王国胤;张学睿;张帆;封雷;李广砥;邓伟辉;郭义帅;谢亮;董建华 | 申请(专利权)人: | 中国科学院重庆绿色智能技术研究院 |
主分类号: | G06F9/44 | 分类号: | G06F9/44 |
代理公司: | 上海光华专利事务所31219 | 代理人: | 敖欢 |
地址: | 400714 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mapreduce 粗糙 并行 方法 装置 系统 | ||
技术领域
本发明涉及知识约简领域,特别是涉及一种基于MapReduce的粗糙集并行约简方法、装置及系统。
背景技术
随着大数据时代的到来,经典的约简方法无法一次性将数据装入到内存中,无法满足大数据的要求。为此,如何在大数据下能够准确快速的进行数据挖掘时目前本领域技术人员的一个主要目标。
随着GoogleTM公司的分布式文件系统GFS(Google File System)、并行编程模式MapReduce及分布式数据存储系统BigTable的提出,为大数据的处理提供了基础,其现有技术中,已有很多经典的数据挖掘方法可以运用到大数据处理中。通常来说,用于数据挖掘的经典方法主要涉及以下几种。
粗糙集,其作为一种经典的处理模糊和不确定的工具,被广泛地应用于机器学习和数据挖掘领域。在粗糙集的理论中,知识约简是重要的研究内容之一,也是知识获取的关键步骤,其中,所谓的知识,在粗糙集理论中,“知识”被认为是一种分类能力。例如,人们的行为是基于分辨现实的或抽象的对象的能力,如在远古时代,人们为了生存必须能分辨出什么可以食用,什么不可以食用;医生给病人诊断,必须辨别出患者得的是哪一种病。这些根据事物的特征差别将其分门别类的能力均可以看作是某种“知识”。另外,所谓知识约简是保持知识库的分类能力不变的条件下,删除其不必要的知识。通过删除冗余知识,可以大大提高信息系统潜在知识的清晰度。
MapReduce,MapReduce是Hadoop分布式文件系统中的一个编程模型(即软件框架),基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并行处理上T级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。
通常,MapReduce框架和Hadoop分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。另外,map函数和reduce函数是交给用户实现的,而这两个函数定义了任务本身。
在现有理论中,详见文献:
1)【Zhang J,Li T,Ruan D,et al.A parallel method for computing rough set approximations[J].Information Sciences,2012,194:209-223】;
2)【Junbo Zhang,Jian-Syuan Wong,Tianrui Li,YiPan.A comparison of parallel large-scale knowledge acquisition using rough set theory on different MapReduce runtime systems.International Journal of Approximate Reasoning.2013】。
在以上文献中,提出了一种粗糙集并行近似模型和基于该模型的粗糙集知识获取并行模型。该模型从理论上给出了很好的证明了,论证了粗糙集并行模型的可行性,但是该模型只是将粗糙集最基本的方法进行了并行化,粗糙集的约简方法并没有涉及。
另外,在文献:
3)【钱进,苗夺谦,张泽华.云计算环境下知识约简算法[J].计算机学报,2011,34(12):2332-2343】;
4)【钱进,苗夺谦,张泽华.云计算环境下差别矩阵知识约简算法研究[J].计算机科学,2011,38(8)】中。
提出了一种粗糙集的并行化约简方法模型,但是该方法的限制居多,需要是相容决策表,才可以进行大数据下的约简,实际运用受到很大的限制。
简单来讲,以上现有知识约简方法主要存在以下缺陷:
首先,虽然可以进行粗糙集的并行计算处理,但是不能够进行约简。
其次,虽然也有能够进行粗糙集并行化约简方法,但是其有限制条件,即该方法只针对相容决策表,在实际应用时受到很大的限制。
最后,已存在的并行约简方法模型,在运行效率上并不高,还有待提升。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410325508.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:计算设备硬件功能扩充系统及方法
- 下一篇:一种基于物联网的指令学习方法