[发明专利]基于语义的资源描述框架RDF图划分方法有效

专利信息
申请号: 201611169530.4 申请日: 2016-12-16
公开(公告)号: CN106844445B 公开(公告)日: 2020-08-14
发明(设计)人: 王鑫;徐强 申请(专利权)人: 天津大学
主分类号: G06F16/56 分类号: G06F16/56;G06F16/532;G06F16/51
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 刘国威
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语义 资源 描述 框架 rdf 划分 方法
【说明书】:

发明涉及资源描述框架图数据划分领域,为能够基于语义对大规模的RDF图进行划分,实现分布式存储RDF图数据,提高数据查询处理的性能,为此,本发明,基于语义的资源描述框架RDF图划分方法,步骤如下:1)得到主语s所属的类C;2)生成s的直接类;3)生成与RDF图G对应的RDF模式图GS;4)计算比率;5)计算基数因子;6)赋初始rank值;7)设置迭代次数;8)按照rank值的大小选取前k个直接类;9)依次搜索邻居直接类C';10)重复步骤8)和步骤9)直到top‑k中的直接类被划分完为止;11)进行后处理。本发明主要应用于数据划分场合。

技术领域

本发明涉及RDF(资源描述框架)图数据划分领域,具体来说,涉及面向大规模RDF三元组数据的语义划分领域。

背景技术

作为下一代的Web技术,语义Web要在现有Web的基础上实现机器可读懂数据,并为人类提供自动服务。由Tim Berners-Lee发起的关联数据(Linked Data)运动的持续推进,使目前RDF三元组数据已超过520亿并且仍在不断增长。由于资源描述框架(ResourceDescription Framework,简称RDF)的数据模型在各领域的可控制性、高度灵活性和扩展性,使得它在处理大规模数据领域方面尤其重要,如在Web语义、政府机构、生物信息及社交网络方面等。RDF是用于描述网络资源的W3C(万维网联盟)标准,其格式为(主语,谓语,宾语),即(s,o,p),其中s表示主语,p表示谓语,o表示宾语。一个三元组中的宾语可作为另一个三元组中的主语,于是RDF语义数据形成了一种有向图结构。

全球范围的RDF图数据库正在形成,但规模庞大加之发布的数据分散度高,使得单个计算节点已无法容纳海量RDF图数据。面对海量RDF图数据分布式存储已势在必行,其核心技术图划分方法对研究RDF图算法意义重大。大规模RDF图上的数据查询代价往往很昂贵,分布式集群中划分数据不合理,跨站点的边数目较大,会导致数据查询(如,连接操作)的通信量激增,降低数据查询处理性能。目前大量的研究工作关注一般无向图或有向图的划分,针对RDF图的划分可以分为两类,一是简单的哈希划分,目前大量RDF引擎,如4store,YARS2都采用哈希算法进行图划分,在主语或宾语上建立key(键),通过对key取哈希值随机地划分三元组,没有进一步的处理。二是以传统的图划分为基础,增加部分优化,其关注点都在图的结构。部分研究通过经典的图划分方法METIS对RDF图进行划分,并在此基础上进行n-跳延伸,对于每个计算节点的边界顶点,通过复制它的n跳距离内的点到该节点,以减少跨越站点的边数目,优化数据查询。此外,也有研究以路径为划分单元将RDF图划分到不同的计算节点,优化RDF图上的SPARQL(Simple Protocol and RDF Query Language,是为RDF开发的一种查询语言和数据获取协议)查询。

以上技术仅利用传统的图划分方法对RDF图进行划分并做出部分优化,但均未考虑RDF图内含的丰富语义,它们主要存在如下问题:

1)仅考虑一般图自身的结构,包括以点、边、或者路径为基本单元进行图划分,而没有考虑RDF图中的RDF模式(RDF schema)信息;

2)以一般图划分方法为基础进行优化,仍具有传统图划分方法的特性,如通过METIS划分进行n-跳延伸会导致RDF数据划分不均匀,成为并行计算的瓶颈;

3)哈希图划分方法没有考虑RDF图的任何结构及语义,划分结果中跨越节点的边的数目较多,数据查询性能较差,对分布式的RDF图进行处理时性能较低;

4)RDF图描述真实世界中Web上的资源信息,具有丰富语义,不仅仅是单独的点、边、或路径,传统图划分方法忽略了这些语义,使得划分结果没有实际意义。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611169530.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top