[发明专利]一种支持局部性表达函数的大数据处理方法和系统有效
申请号: | 201711250255.3 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108241472B | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 汪小林;潘成;陈一峯;罗英伟 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;H04L29/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 局部性 表达 函数 数据处理 方法 系统 | ||
本发明涉及一种支持局部性表达函数的大数据处理方法和系统。该方法包括以下步骤:1)发掘大数据处理系统中所处理的数据的局部性,形成局部性表达函数;2)将局部性表达函数部署在大数据处理系统中;3)大数据处理系统按照局部性表达函数分配工作任务。所述大数据处理系统采用分布式存储方式或集中式存储方式;所述局部性表达函数在大数据处理系统中的部署方式分为两种类型:内置式冷启动模式、外置式热插拔模式。本发明通过发掘数据中隐藏的局部性,并且使用自定义的局部性函数表达出来,最终被大数据处理系统识别,按照局部性来分配机器执行任务,从而达到优化处理效率。
技术领域
本发明涉及一种将数据的局部性表达函数与分布式处理系统结合的方法和系统,属于分布式系统领域。
背景技术
随着数据量越来越大,计算机需要处理的业务越来越复杂,单机已经无法满足需求。一个有效的解决方案是把众多廉价的计算机整合起来,共同提供服务,这就是分布式系统。
严格来说,分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。也就是说一个分布式系统中的计算机在空间部署上可以是随意分布的,这些计算机可能被放在不同的机柜上,也可能在不同的机房中,甚至分布在不同的城市。这些计算机之间通过网络来通信。
分布式系统从体量上实现了相当大的可扩展性,通过不断加入新的计算资源,可以处理的数据量也越来越大。但是随着任务中的数据量的不断扩张,也会有很多问题随之而来。比如不同机器在计算中需要传递的数据量会随着机器数量、运算数据、迭代次数等等因素的增加而增加,而不同机器之间是通过网络来传递数据的,网络带宽很容易会成为限制整体运算效率的瓶颈。又比如基于MapReduce架构的分布式系统,在多次迭代的过程中会产生大量的中间结果,这些结果没法都存储在内存中,只能换出到外存。大量数据在内外存的频繁换入换出,也会导致整体运算性能的下降。
充分发掘数据中的局部性可以帮助更好的优化分布式系统的计算。比如经典的PageRank算法,每一轮迭代计算中,都需要在各个网页链接之间传送数据。如果可以将整个网页链接关系的大图划分成几个较为均等的子图,并且各个网页之间的链接尽可能出现在同一个子图之内,那么在分布式迭代的过程中,可以将一个子图中的数据都放在一个物理节点上计算,可以大大节约网络带宽。再比如大规模(TB甚至更高级别)的<键,值>数据按键排序,数据中的键可能比较长,不太可能全部加载到内存中进行排序。使用外部排序的话,会产生很大的磁盘IO;或者采用分布式的排序,又会产生相当大的网络流量。如果此时有一种比key更简短的值可以代表整个键值对,并且满足一定的偏序关系,便可以将这个短小的值放入内存中进行预排序,预排序的结果可以对数据集进行更精确的划分,然后使用分布式的节点对每个划分好的子块进行细致的排序。这样可以降低一定程度的磁盘IO,从而达到优化整体任务的执行效果。
发明内容
本发明的目的是提出一种通用大数据处理系统和用户可自定义局部性表达函数(本发明将该局部性表达函数称为Locey)的结合方式,以优化数据处理效率。具体来说,大数据处理系统往往采用分布式的架构,需要多台机器之间分工协作,在处理不同类型的数据的时候,往往会产生机器与机器、内存与磁盘之间的数据传送。通过发掘数据中隐藏的局部性,并且使用自定义的局部性函数表达出来,最终被大数据处理系统识别,按照局部性来分配机器执行任务,从而达到优化处理效率。
本发明所述“局部性”是指程序运行时对数据访问的“时间局部性”与“空间局部性”的总称。时间局部性指的是“如果一个信息项正在被访问,那么在近期它很可能还会被再次访问”,空间局部性指的是“在最近的将来将用到的信息很可能与现在正在使用的信息在空间地址上是临近的”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711250255.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提升固态硬盘性能的方法
- 下一篇:存取闪存的方法及相关的控制器