[发明专利]一种基于分布式RDF的数据存储、查询方法及装置有效
申请号: | 201911006105.7 | 申请日: | 2019-10-22 |
公开(公告)号: | CN110825738B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 宋佳明;张小旺;冯志勇 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2453;G06F16/2455;G06F16/2458;G06F16/248;G06F16/27 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 rdf 数据 存储 查询 方法 装置 | ||
本发明公开了一种基于分布式RDF的数据存储、查询方法及装置,方法包括:利用原始RDF数据生成候选的数据模式集合,统计谓语频次和数据模式频次;基于候选数据模式集合覆盖挖掘星模式;并建立星模式的索引;依据星模式,从RDF数据构建动态存储形成星模式表;通过索引和星模式表的统计数据基于广度优先解析和反向意识优化SPARQL查询语句得到最优的查询计划;将查询计划转换为物理执行过程,在星模式表存储上执行该过程。装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法步骤。本发明通过将存储数据表示为星模式表,相比于属性表节省了大量存储空间,相比于垂直分区表节省了查询join次数。
技术领域
本发明涉及RDF数据的存储、查询领域,尤其涉及一种基于分布式RDF的数据存储、查询方法及装置。
背景技术
资源描述框架(Resource Description Framework,简称RDF)是由万维网联盟(World Wide Web Consortium,简称W3C)推荐的用来描述资源及其之间关系的语言规范。一个RDF 数据集也可以被描述为一个有向标签图,一个三元组就表示一条边,主语(subject)和宾语(object)表示两个顶点,谓语(predicate)表示这条边的标签。为了在RDF数据上进 行查询,W3C又提出SPARQL协议和RDF查询语言(SPARQL Protocol and RDFQuery Language,简称SPARQL)作为其标准查询语言。随着RDF数据量大规模增长,以及由于用户需求逐渐多样导致的SPARQL语句的复杂性,高效地存储数据逐渐变得艰难。
目前RDF数据处理方法主要分为三类:基于关系的处理方法(将RDF数据存储在关系数据库中,并用SQL语言查询)、基于分区的处理方法(集群每个节点存储不同部分的 RDF数据,每个节点只查询自己的部分)、基于图特性的处理方法(用图探索的方式执行 查询)。经过综合性的定性分析和实验比较,基于关系的和基于分区的处理方法在查询效 率和伸缩性上优于基于图特性的处理方法。而且,关系处理方法可以利用过去40年的理 论研究和实践经验结果,将这些成果作为RDF处理引擎的基础是有必要的。
基于关系SQL代数与基本SPARQL代数的相似性,大量的关系存储模式被提出来存储RDF。最简单的是不需要任何先验知识,直接以RDF数据(主语,谓语,宾语)三列 的表来存储,这种方法不利于查询的加速。第二种方法是属性类表,这种方法为RDF数据 中每一类实体创建一张表,除了主语列外,其他列的列名为该主语所连接的所有谓语。第三种方法是按照谓语分表,也叫作垂直划分,每张谓语的表的两列为主语和宾语。但是这 些方法均不能同时满足RDF数据关系稀疏性、关联复杂性、结构不均衡性等特征,无法有 效地应对大规模数据和复杂查询。
在此基础上,对自适应的RDF处理方法的需求迫不可待。存储方面,自适应的方法主 要包括数据感知和工作负载感知两种,分别利用数据自身的特点和现有查询历史的特点。 数据感知方法一般按照同一主语或者同一宾语将三元组划分,对于星状查询效果明显,但是对于复杂查询来说,可能存在节点间通信代价过大的问题。除此以外,还有将图数据聚 类用以分区的方法,传统的数据聚类方法无法刻画RDF图的拓扑结构,而更复杂的基于图 的聚类时间成本又极高。基于标签传播的社团检测聚类的方法在构建时间以及数据均衡性 上均表现良好,缺点是没有给出适合该存储的查询执行计划。工作负载感知方法采用查询 集中提取出的三元组模式训练,要么直接训练数据分区,要么先采用简单分区方法分区, 再在节点间复制频繁访问的数据。查询方面,现有的自适应查询计划则是根据不同的查询形状来调整节点个数和查询计划,避免了不必要的通信代价和节点的工作负担,但是同时 需要考虑调度成本。
现有技术的缺点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911006105.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人力资源辅助决策系统
- 下一篇:一种臭氧自动调用装置和方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置