[发明专利]图数据查询方法有效
申请号: | 201310222362.0 | 申请日: | 2013-06-05 |
公开(公告)号: | CN103279546B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 王朝坤;白易元 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇信合知识产权代理有限公司11335 | 代理人: | 夏静洁 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 查询 方法 | ||
技术领域
本发明涉及海量图数据查询技术领域,尤其是涉及一种图数据查询方法。
背景技术
现代社会中,图的应用越来越广泛,数据的管理技术已被广泛应用于各个领域。其中互联网、社交网络、生物信息学等领域,对海量图数据的高效管理有着很高的需求。如何有效的管理和应用这些大图数据成为当前本领域技术人员所面临的极大挑战。
当今随着信息技术的发展和社交网络的兴起,图数据管理技术已成为数据管理领域的研究热点之一。图数据集上的高效查询处理技术,尤其是海量规模图数据上的查询处理,成为解决社交网络分析等大数据时代典型应用的重要基础。
许多高效的图查询算法都直接或间接地依赖于两个节点之间特定模式路径的高效计算,例如,GraphGrep子图查询处理算法需要检索所有的长度不大于L的路径;化合物分类算法需要统计带有特定标签的路径;社交网络分析算法中,需要找出边的颜色符合给定正则表达式的路径。这类问题统称为路径模式查询处理,或路径模式匹配,是图数据管理和挖掘中的一项基本操作。
正则表达式在文本模式匹配领域有很广泛的应用,其强大的表达能力使之同样适用于定义图的路径模式。它能够在纯文本表达式中表达各种约束和成员的重复模式。因此,本文使用正则表达式定义路径模式,称为图的正则路径模式。
现有一些图查询语言虽然支持正则路径查询,但是都存在一定不足。例如,GraphQL只支持有限的正则表达式。SPARQL只支持语义网络数据,难以直接扩展到通用的图数据中。近些年也出现了一些原生图数据库管理系统,如Neo4j、Apache Giraph,但它们仍然存在一些问题:Neo4j是一个具有强一致性的数据库系统,在大型的分布式环境中性能较差;Giraph不支持高级查询语言,并非一个成熟完整的图数据管理系统。
因此,当下需要迫切解决的一个技术问题就是:如何能够提出一种有效的措施,已解决现有技术中存在的问题。
发明内容
本发明所要解决的技术问题是提供一种图数据查询方法,极大地方便了用户查询海量图数据,且很大程度上提高海量图数据的查询执行计划。
为了解决上述问题,本发明公开了一种图数据查询方法,提交查询:向查询管理服务提交查询,提交后客户端会得到一个新的会话id,接下来就可以通过会话ID得到查询的状态;
编译:查询管理服务将文本形式的查询编译成查询的内部表示形式,即一个自动机,这一步还包括对自动机进行优化;
任务分发:查询管理服务将这个自动机分发给各个并行计算服务;
任务执行:并行计算服务维护着BSP并行框架,在此框架下使用查询处理算法对查询进行具体的计算;
结果收集:由于查询是分布式的,结果分布在并行计算服务集群中的各个机器上,这一步需要各个机器向管理服务回发所有的查询结果;
结果输出:查询管理服务将查询结果传输给客户端。
进一步地,所述方法还包括:
提交更新:客户端向查询管理服务提交更新内容;
生成更新日志:查询管理服务根据修改的内容生成更新日志;
日志管理:查询管理服务维护着一个全局的更新日志,这一步将生成的更新日志合并到全局的更新日志中;
生成更新任务:在数据更新服务中,每次更新表现为一个更新任务,它会将全局更新日志合并到数据文件中。更新任务是重量级的,因此不一定每次更新操作都会触发生成更新任务的操作,而是根据一定规则,例如定期或根据修改的数据量触发;
提交更新任务:将更新任务提交给数据更新服务。此时数据更新服务将会开始合并更新日志,但由于更新任务是较重量级的,这个步骤一般不会立即完成,而是需要一定时间。因此更新过程将生成一个新的数据文件,这段时间内旧的数据文件仍然是可用的;
使用新文件:更新任务完成后,将生成新的数据文件,此时需要通知数据存储服务开始使用新的文件。
综上,本方案能够高效并行执行G-Path查询,与大多数现有图数据管理系统兼容,极大地方便了用户查询海量图数据,且很大程度上提高海量图数据的查询执行计划。
附图说明
图1是本发明的图数据查询方法的流程示意图;
图2是本发明的海量图数据上的路径模式查询系统的结构图;
图3是本发明具体实施方式中所述的错误!未找到引用源。中所示的查询自动机的例子示意图;
图4是本发明具体实施方式中所述的数据集的一个模型图示意。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310222362.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置