[发明专利]基于Datalog的分布式环境下大图数据查询方法有效
申请号: | 201210210245.8 | 申请日: | 2012-06-19 |
公开(公告)号: | CN102799624A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 高军;周家帅;王腾蛟;杨冬青;唐世渭 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 datalog 分布式 环境 大图 数据 查询 方法 | ||
技术领域
本发明具体涉及分布式环境下进行大图数据的查询,具体涉及了一种基于Datalog的分布式环境下大图数据查询方法,属于信息技术领域。
背景技术
现代社会中,图的应用越来越广泛。社交网络、生物信息、交通导航等领域技术的迅猛发展产生了规模庞大的图数据。如何有效的管理这些大图数据面临着许多挑战:首先是传统的单机计算模式很难支持大图数据的管理,单机的存储能力有限,很难将整个大图数据都加载到内存中,同时单机的处理能力也不足,很难有效支持大图数据上各种复杂的操作;其次是大图数据上的应用需求日益复杂,大图上的操作不仅仅局限于检索结点和边这样简单的操作,同时还包括各种复杂的查询,比如最短路径查询、子图模式匹配等。这些操作往往需要循环迭代,涉及很大的搜索空间和执行代价。因此,利用分布式环境来对大图数据进行管理成为发展的必然趋势。
目前出现了一些基于分布式环境的大图数据管理系统,其中具有代表性的系统包括Google的Pregel系统,可具体参考【1】(Grzegorz Malewicz,Matthew H.Austern,Aart J.C.Bik,James C.Dehnert,Ilan Horn,Naty Leiser,Grzegorz Czajkowski:Pregel:a system for large-scale graph processing.SIGMOD 2010:135-146)以及Microsoft的Trinity系统,这两个系统都不是开源的,主要是针对图数据管理的特点,专门开发的大图数据分布式管理框架,需要用户自己使用高级编程语言来实现查询,对用户的专业知识要求较高。
目前还出现了基于MapReduce框架支持SQL查询的工作,如在SIGMOD2007上出现的Map-Reduce-Merge的工作,如参考文件【2】(Hung-chih Yang,Ali Dasdan,Ruey-Lung Hsiao,Douglas Stott Parker Jr.:Map-reduce-merge:simplified relational data processing on large clusters.SIGMOD 2007:1029-1040),以及在hadoop环境中采用类SQL语言进行分析的Hive系统,可参考文件【3】(Ashish Thusoo,Joydeep Sen Sarma,Namit Jain,Zheng Shao,Prasad Chakka,Ning Zhang,Suresh Anthony,Hao Liu,Raghotham Murthy:Hive-a petabyte scale data warehouse using Hadoop.ICDE 2010:996-1005)。但是,此类工作只是考虑单个关系数据的操作符号,并没有考虑图递归Datalog查询对MapReduce函数生成和优化的影响。
针对Datalog查询的研究曾经是数据管理领域重点,如参考文件【4】(Serge Abiteboul,Richard Hull,and Victor Vianu.Foundations of Databases.http://webdam.inria.fr/Alice/.)Datalog查询表达能力强,用户能够以简洁的方式表达其查询要求。本发明主要是利用Datalog对图数据进行查询,图数据需要较为复杂的递归循环处理。本发明扩展了Datalog查询语言,所设计的Datalog查询显式地给出循环的终止条件,支持更多的系统函数,在不增加用户太多负担的情况下,扩展了图查询的表达能力。
大图数据管理系统建设的一种方案是充分考虑图数据管理的特点和需求,完全从底层开始的实现。这种方式的优点是能够针对大图数据作出特定的优化,系统管理大图数据比较自然。缺点是需要自己专门实现数据分布、任务调度、数据副本、结点失败等通用分布式计算框架的功能,这会带来庞大的工程实现代价,同时也没有办法利用已有系统积累的优势。
发明内容
本发明针对利用现有相对成熟的MapReduce分布式计算框架来对大图数据进行查询,针对现有框架下大图数据查询性能难以满足应用需求、用户编写图数据处理脚本繁琐低效等问题,设计了一种基于Datalog的MapReduce分布式环境下大图数据查询方法。该方法的设计主要包括如下三方面的内容:描述性图查询语言的设计、描述性查询语言执行计划的产生和描述性查询语言执行计划的优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210210245.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有文件袋的雨伞
- 下一篇:基于滴液计数法的油雾浓度检测装置