[发明专利]一种基于MapReduce架构的大规模图数据聚类算法在审
申请号: | 201510346735.4 | 申请日: | 2015-06-19 |
公开(公告)号: | CN104991912A | 公开(公告)日: | 2015-10-21 |
发明(设计)人: | 张海仙;章毅;王钰 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 杨保刚;刘贤科 |
地址: | 610064 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mapreduce 架构 大规模 数据 算法 | ||
技术领域
本发明涉及图数据处理技术领域,具体涉及一种基于MapReduce架构的大规模图数据聚类算法。
背景技术
云,是对于网络的一种比喻叫法。云计算作为一种增加和交付的模式主要应用在网络及其相关服务方面。云计算能够通过网络提供虚拟化资源,这些资源不仅是动态的而且能够被它人扩展。云计算可以提供非常强大的运算能力,其速度甚至能够达到10万亿次/s,如此强大的计算能力对于那些需要分析大型数据的项目是非常有帮助的。例如可以将云计算应用在检测气候的变化和股票交易中。对于普通的用户,云计算也很有帮助,他们可以通过网络与云计算提供的数据中心进行连接,根据自己的需求处理他们自己的数据。云计算的特点
(1)超大规模:“云”的规模可能非常大,在全世界的IT公司中,Google的云计算资源屈指可数,据悉大约有它拥有超过100万台服务器。而其他如Yahoo、微软、IBM等一些公司拥有的服务器则相对少一些,但也有几十万的云服务器。这些大型的IT公司拥有这么多的服务器与云计算的优点是密不可分的,正因为云计算能够用户提供非常强的运算能力,这些公司才如此重视这项服务。
(2)虚拟化:云计算提供的服务非常方便,用户可以在自己的电脑或笔记本上得到该项服务。这些资源却并不在自己的终端上,而是来自于“云”。云的存在给我们提供了极大的方便,有时我们需要完成非常庞大的计算,在以前我们可能必须通过连入超级计算机才能完成这项任务,而现在,通过云,我们只要在自己的终端上提交请求,便可以通过云计算完成任务。虽然在运行过程中,用户可能不知道自己运行程序的详细位置,但这丝毫不会有什么不利的影响,因为用户同样也可以在自己的终端上收到最后的结果。
(3)高可靠性:云计算的优点还体现在更高的可靠性方面,相对于个人计算机,云计算有着更为可靠的计算能力。
(4)通用性:云计算的应用方面非常广,我们不必担心云计算只提供给我们有限的特定服务。在同一个时间,云能够同时运行多个不同的应用,并且这些应用都能够正常运行,这是一个非常大的优点。
(5)按需服务:云提供的资源非常巨大,因此计费可能会是一个问题,但这已得到很好地解决,因为目前云服务可以像话费和网费那样收费。
(6)极其廉价:“云“相比于其他的技术,有它特有的容错措施。我们在构建云的时候可以使用非常廉价常用的节点,但是在它的构建如此便宜的同时,它处理任务所花费的时间又相当的短暂。作为用户,可是充分的享受到”云“的低成本,花费少量金钱、较少时间就能完成以前消耗巨大的资源才能够完成的任务。
图是结构和语义方面比树和线性表更复杂的一种数据结构。与图相关的场景应用随处可见,现实应用中许多情况下都需要用图来表达。而近几年对于一些较新的应用,如社交网络的分析(计算实体与实体的关系),语义的Web分析(关于Web链接及其结构的分析,内容的挖掘和Web日志搜索等),生物信息分析(基因组分析及蛋白质结构分析)等,这些应用需要建立的图的规模日渐增大,导致对大规模顶点级别图的处理能力需求则更加急迫。所以,对大规模图数据的处理成为目前高性能计算领域开发研究的热点。
而在大规模图数据的处理过程中,如何高效地发现大图中联系紧密的点,找出具有相似功能的功能团或者社区,这些问题更是当前研究的一个热点。但是直接针对大规模图数据进行聚类,对于普通用户来说,目前还存在很多局限性,因为我们没有google的高效系统,没有高性能的计算机,然而MapReduce的并行架构给我们提供了更加高效的可能。
发明内容
针对上述现有技术,本发明要解决的预测群体行为并对未来趋势进行模拟和预测,网络中具有某种共同爱好的社区发现从而进行精准的广告推广等大数据而普通PC机难以处理的技术问题
为了解决上述技术问题,本发明采用如下技术方案:
一种基于MapReduce架构的大规模图数据聚类算法,其特征在于,包括如下步骤:
①计算图数据的邻接矩阵A;
②计算图的度对角矩阵D;
③计算传递因子;
④得到源节点传递一次信息后的高维表示;
⑤传递次数小于T时,返回第四步,否则结束并输出结果。
所述步骤②具体包括以下步骤:
a、作为无向图数据的度对角矩阵,相当于每行对角元素代表此行标号节点的度数,这样的话将度对角元素直接存入一维数组中方便后续计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510346735.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种目标信息获取、推送方法及装置
- 下一篇:一种目标物品的识别处理方法及装置