[发明专利]结合星型图编码的RDF数据存储与查询方法有效
申请号: | 201510003231.2 | 申请日: | 2015-01-06 |
公开(公告)号: | CN104462609B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 汪璟玢;卢桂芳 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 星型图 编码 rdf 数据 存储 查询 方法 | ||
1.结合星型图编码的RDF数据存储与查询方法,其特征在于:
步骤S1:对RDF数据进行预处理,将所述RDF数据以RDF数据图方式呈现;所述的预处理包括一星形数据分割阶段和一星形图编码阶段;
步骤S2:将输入的SPARQL查询语句以SPARQL查询图方式呈现,进行查询分解,解析成星型节点,形成查询子图G;
步骤S3:对所述SPARQL查询语句进行预处理,得到整个查询的任务数、查询星型子节点的连接顺序以及查询星型子节点的相关信息;所述的查询星型子节点的相关信息包括主语类型、查询变量、连接变量、索引编码和节点编码;通过主语类型将查询星型节点的查询范围定位到主语类型所在的文件夹下,再由索引编码可以得到具体的输入文件;
步骤S4:执行所述SPARQL查询语句并进行查询连接计划,采用Hadoop的MapReduce并行运算框架,根据所述SPARQL查询语句的关联性决定查询任务Job的启动次数;
步骤S5:进行子图查询,采用Map函数,包括两个过程:首先利用步骤S3计算好的索引编码和过滤策略1,得到关于查询连接任务Q的候选文件;其次结合分布式框架,根据节点编码和过滤策略2,对输入文件中的星型节点做快速的过滤和精确验证,最后得到每个查询子图任务的查询结果;
步骤S6:进行结果连接算法,采用Reduce函数。
2.根据权利要求1所述的结合星型图编码的RDF数据存储与查询方法,其特征在于:所述步骤S1中的星形数据分割阶段包括以下步骤:
步骤S11:定义所述的RDF数据图为一个三元组(V,E,L),其中,V为顶点集 合,E为边的集合,L为标签集合,且L=Lv∪Lp,Lv为顶点的标签集合,Lp为边的标签集合;其中V对应三元组中的s和o,E对应p;即RDF数据图G是以s和o为顶点、p为边,并且顶点和边上都带有标签的图;
步骤S12:将所述的RDF数据图分解成多个星型结构;所述星型结构由多个RDF三元组共同组成,每个三元组的主语相同,将构成所述星型结构的多个三元组数据表示成一个节点,形成一星型节点;
步骤S13:假设每个星型节点存储的第一行为星型的中心点,即主语,只存储一次;之后的每一行为三元组中的谓语和宾语,用逗号连接,每个星型节点以END结束;
步骤S14:所述星型节点按照主语的Type划分,对每个Type类型创建一个以Type取值命名的文件夹,将Type相同的星型节点放在同一文件夹下存储,同时在存储星型节点内容时去除谓语为Type的三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510003231.2/1.html,转载请声明来源钻瓜专利网。