[发明专利]基于Hadoop的邻域粗糙集快速属性约简方法有效
申请号: | 201310224008.1 | 申请日: | 2013-06-06 |
公开(公告)号: | CN103336790A | 公开(公告)日: | 2013-10-02 |
发明(设计)人: | 蒋云良;杨建党;刘勇;范婧;张雄涛 | 申请(专利权)人: | 湖州师范学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 韩洪 |
地址: | 313000 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop 邻域 粗糙 快速 属性 方法 | ||
【技术领域】
本发明涉及数据属性约简方法,尤其是针对大数据分布式属性约简方法。
【背景技术】
随着高科技信息产业的高速发展,人类历史篇章的不断更新,如今我们已经进入了一个数据爆炸、信息膨胀的时代,每天都有海量数据分秒不歇的被产生,运转和利用。“大数据时代”来临,一分钟内,微博上新发的数据量超过10万,纽约证券交易所每天产生1TB的交易数据,全球每天生成2.5艾(1艾等于10的18次方)字节的数据。IDC最近的数字宇宙研究预测,到2020年,世界的数据存储总额将达到35ZB(1Z等于10的21次方)。面对海量数据的迅猛增长,如何更有效的分析长期积累的切仍在持续增长的海量数据,从中发掘市场商业价值,支持企业决策和业务发展是当今众多拥有大规模数据企业所面临的严峻挑战。
数据挖掘是从大量数据中提取或挖掘知识,利用数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务策略、知识库、科学和医学研究做出巨大贡献。特征选择和属性约简被视为模式识别、机器学习和数据挖掘十分重要的数据预处理步骤。同时,特征选择和属性约简本身也是一类非常重要的机器学习任务,目的在于删除不相关、弱相关或冗余的属性或维,精确的揭示特征与特征,特征与分类决策之间的相关性,直接帮助用户理解数据的本质。在营销分析中,产品特征与产品销量之间的关系可以帮助制定正确的营销策略和指导设计师改进产品。
随着数据的爆炸式增加,数据的种类越来越丰富,不仅在数据规模上不断膨胀,而且数据的维度也很高。对属性约简方法提出了新的要求。一个好的属性约简方法,不仅仅能够有效地降低数据属性维度,还要在处理大规模数据有出良好的时间效率。现有的一些属性约简理论并未考虑大数据情况,约简过程非常耗时,面对海量数据时,根本无法实际应用。虽然现在也有一些针对大数据量的属性约简算法,却不适用于分布式存储的数据。
随着Web2.0的兴起,社交网络得到了飞速的发展,各种社交网站的访问量远远超过传统门户网站,并且用户量庞大,上网时间剧增,使得网络产生的数据量激增。网站运营商面对的难题就是如何为庞大的用户群提供稳定,快捷的服务。Google在大数据处理上走在了前列,推出的Google文件系统和MapReduce编程模型,满足了超大规模数据的存储和计算需求。
由于Google公司研发的Google文件系统和MapReduce编程模型以及其处理大规模海量数据的特有魅力,在学术界和工业界引起了非同凡响。学术界不断涌现出针对海量数据处理、立足于MapReduce的研究成果。工业界,大量类似于Google文件系统、采用类MapReduce编程模型的系统也得到了广泛的部署。随后云计算的概念被提出,使人们看到了信息爆炸时代解决海量数据处理问题的有效方案。亚马逊和谷歌是云计算的先驱,Google应用程序引擎(Google App Engine)和亚马逊网络服务(Amazon Web Service)[43]是最早的云计算服务。IBM、 微软、中国移动、中国联通、中国电信等国内外知名IT厂商也根据各自的优势推出了自己的云计算计划。
今天,在像互联网、科学数据处理、商业智能数据分析等具有海量数据需求的应用变得越来越普遍时,无论是从科学研究还是从应用开发角度来看,掌握像Google文件系统和MapReduce编程模型这样的技术已经成为一种趋势。在这样的背景下,实现了Google文件系统和MapReduce编程模型的Hadoop开源系统成为使用最为广泛的分布式架构。Hadoop已经成为许多互联网公司基础平台的一个核心部分,如雅虎、FaceBook、LinkedIn和Twitter。许多传统的行业,如传媒业和电信业,也开始采用Hadoop系统。Hadoop已经成为应用最为广泛的云计算平台。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖州师范学院,未经湖州师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310224008.1/2.html,转载请声明来源钻瓜专利网。