[发明专利]一种基于分区的分布式RDF系统上的SPARQL查询处理方法在审
申请号: | 202110186155.9 | 申请日: | 2021-02-15 |
公开(公告)号: | CN112883063A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 王青;彭鹏;秦拯;葛宁超;李明道 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458;G06F16/248 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分区 分布式 rdf 系统 sparql 查询 处理 方法 | ||
本发明提出了一种基于分区的分布式RDF系统上的SPARQL查询处理方法,主要包括:(1)基于分布式执行计划的提前候选变量生成方法;(2)最优分布式执行计划成本估算方法;基于RDF数据和SPARQL查询的特点,提前在站点中生成候选变量,并利用一个基于总时间的成本模型来达到最优的执行计划生成最优SPARQL查询匹配。
技术领域
本发明涉及人工智能领域,一种基于分区的分布式RDF系统上的SPARQL查询处理方法。
背景技术
资源描述框架RDF是一个名为W3C的组织提出用来描述网络资源的标准模型,已经在许多知识管理应用中被使用。一个RDF知识图谱数据集是由许多三元组数据相互连接而成,这些三元组的形式是主语、谓语、宾语的形态而存在。每个三元组代表一个关于资源的事实,这个事实可以是两个资源按照某个命名关系连接,也可以是与资源相关的属性以及属性值。每一组数据皆可以描述现实中的一个事实,这个事实可以是两个资源按照某个命名关系连接,也可以是与资源相关的属性以及属性值。RDF数据集本质上代表具有标签的有向多边图,其中主体和对象是顶点,三元组是顶点之间带有标签的边。因此,RDF数据模型比其他模型更适合于知识表示。因此,由RDF建模的知识库越来越多,如YAGO2和DBpedia,它们包含数百万个三元组。
要在知识库中检索和操作RDF数据,一个标准的方法是使用SPARQL查询语言。SPARQL查询也可以用包含变量的查询图来表示。现在已经有很多系统研究如何在一台机器上处理一个SPARQL查询,比如RDF-3x,SW-store,gStore等等。这些系统在单台机器上为中等大小的RDF数据集实现了高性能,但是,当这些数据集变得更大时,由于单台机器的性能限制使得它已不能很好的处理这些RDF数据集。因此,在分布式环境中处理SPARQL查询变得至关重要。
为了在分布式环境中处理SPARQL查询,RDF图通常被划分成一些更小的子图,称为分区,然后这些子图被分布式存储。正是基于这样的原理,SPARQL查询通常不需要检索整个RDF图,而只需要检索其子图。此外,将一个RDF图划分为多个分区并允许并行执行大量的SPARQL查询,这大大增加了查询效率。最近,已经提出了许多种在分布式环境中分割RDF图的策略,例如哈希分区、基于图的分区和垂直分区。
在运行时,输入的SPARQL查询首先被分解成一些可以在本地处理的子查询,我们可以将这些子查询理解为本地查询。然后,所有本地查询都在本地得到回答,它们的匹配被组合在一起形成完整的匹配。
在本文中,我们提出了一种新的优化技术来加速上述基于分区的分布式RDF数据库系统中的查询速度。该技术基于RDF图和SPARQL查询的特点。它们可以避免许多误报,并加快查询处理。最重要的是,它可以与现有的分布式RDF数据库系统无缝结合。
类似于在分布式关系数据库系统上处理SQL查询的框架,这个框架有三个步骤。首先,基于数据分布的信息,一个SPARQL查询被分解成若干个局部查询。分解查询后,我们可以确定查询中涉及哪些分区。其次,我们通过成本模型计算出所有本地查询的处理成本得到最优的分布式执行计划。最后,我们根据分布式执行计划执行查询并找到匹配项。
虽然分布式环境下的关系型数据库系统与RDF型数据库系统之间会有一些相似之处,但仍然存在一些显著的差异。因此,我们不能直接将关系型数据库的技术应用于RDF数据库,我们需要根据RDF图和SPARQL查询的特点提出一些新的技术。
发明内容
本发明提出了一种基于分区的分布式RDF系统上的SPARQL查询处理方法,主要包括两大内容:
(1)基于分布式执行计划的提前候选变量生成方法
具体内容如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110186155.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小麦多肽的提取及制备方法
- 下一篇:一种婴幼儿血型弱抗原图像分析鉴定系统