[发明专利]一种基于MapReduce的大型数据集聚类方法在审
申请号: | 201811099090.9 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109271421A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 韦鹏程;蔡银应;邹杨;黄思行;张艳霞 | 申请(专利权)人: | 重庆第二师范学院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/27 |
代理公司: | 重庆市信立达专利代理事务所(普通合伙) 50230 | 代理人: | 包晓静 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚簇 算法 大型数据 聚类 集聚 数据处理技术 迭代计算 迭代完成 分配数据 格式转换 技术框架 计算开销 完整信息 原始数据 中心选择 传统的 准确率 迭代 过滤 改进 筛选 应用 研究 | ||
本发明属于大数据处理技术领域,公开了一种基于MapReduce的大型数据集聚类方法及应用;原始数据的输入和格式转换;Canopy划分与筛选,得到初始的聚簇划分;K‑Means迭代,以Canopy聚类的结果作为初始聚簇划分;分配数据点,K‑Means迭代完成后,得到k个聚簇的完整信息。针对传统的K‑Means算法中存在的初始聚簇中心选择和迭代计算量过大的问题,提出一种基于Canopy划分和过滤的K‑Means改进算法,并在MapReduce技术框架内实现了这种算法,进行了深入的研究。结果显示这种改进算法在聚类准确率、计算开销等方面都有明显的性能提高。
技术领域
本发明属于大数据处理技术领域,尤其涉及一种基于MapReduce的大型数据集聚类方法。
背景技术
随着大数据时代的来临,越来越多的应用情景下,人们需要处理的数据规模扩展到TB甚至PB级别,并且希望从中快速有效地挖掘出可靠、有用的隐藏信息(AlexeyB etal.2018)。因此,如何快速准确地从大数据中挖掘价值信息在当前具有重要意义。聚类分析作为一种数据挖掘领域的核心技术之一,常常可以作为其他数据挖掘算法的前期处理(Treu T et al.2018)。然而面对如此庞大的数据规模,传统的聚类方法在数据存储、计算开销等方面不能满足现实需要(Efstathiou G et al.2018)。
MapReduce计算模型是Google提出的一种分布式计算方法,具有高度可靠、可扩展性强、易于编程的特点,对编程者隐藏了数据存储、错误处理、负载均衡等非常复杂的分布式计算处理细节,是一种非常流行的分布式处理技术(Driver S P et al.2018)。Hadoop平台是Apache基金会下的开源项目,实现了MapReduce模型,并采用HDFS(分布式文件系统)管理数据,可以作为并行聚类方法研究的有力工具(HumphreyP J et al.2018)。
著名大数据问题研究专家维克托迈尔-舍恩伯格曾说,世界的本质就是数据,大数据时代将开启一次重大的时代转型(Barentsen G et al.2018)。大数据的兴起不仅仅是一次技术层面的蓬勃发展或者过度热捧,它很可能是一次改变人们生活方式和理解世界的方式的革命(Littlefair S P et al.2018)。这就如同人类通过望远镜直观地感受宇宙,使用显微镜精准地观测微生物,大数据技术的发展使得人们不再感到淹没于数据海洋中的无力,而是从宝贵的数据矿藏中探寻价值,涉及商业、公共卫生、安全、政治等。事实上,信息爆炸已经现实地在身边发生着(Clark C D.2017)。2003年,人类基因组计划用了整整十年完成了第一次破译基因密码的部分工作,而如今,基因仪只用十五分钟就可以完成同样工作量的任务。金融领域,随着建立在数学模型和计算机算法上的自动交易程序日趋成熟,据估计,美国股市高达七十亿的成交量中有三分之二是由程序完成。各大互联网公司更是收集了海量的用户数据,谷歌、亚马逊等公司更明白数据的价值,无一例外都是大数据技术的领导者和推动者(Peng H et al.2017)。面对庞大的数据和急剧积累的增长速度,人们逐渐从不安中认识到,大数据的科学价值和社会价值正是在于“大”,对大数据的掌握程度可以转化为现实的经济价值(Mukherjee A P et al.2017)。同时,大数据可以成为解决紧迫问题,如环境问题、疫病控制,提高政府执政能力的有力工具。
综上所述,现有技术存在的问题是:面对庞大的数据规模,传统的聚类方法在数据存储、计算开销等方面不能满足现实需要,准确率低,不能有效地挖掘出可靠、有用的隐藏信息。
解决问题的难度和意义:
(1)改进算法通过全体数据集的Canopy划分得到canopy聚簇中心并根据一定的判别条件对canopy聚簇中心进行筛选,以此得到的K-Means迭代初始中心比传统K-Means算法的随机选择方法得到的初始中心更为准确,减弱了K-Means算法中可能存在的局部最优问题的影响,使得最终的聚类结果更为准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆第二师范学院,未经重庆第二师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811099090.9/2.html,转载请声明来源钻瓜专利网。