[发明专利]一种基于spark的大规模知识图谱语义查询方法有效

专利信息
申请号: 201710326554.4 申请日: 2017-05-10
公开(公告)号: CN107247738B 公开(公告)日: 2019-09-06
发明(设计)人: 陈华钧;陈曦;张宁豫;吴朝晖 申请(专利权)人: 浙江大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/36
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 310013 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 大规模 知识 图谱 语义 查询 方法
【说明书】:

发明公开了一种基于spark大规模知识图谱语义查询方法,包括:(1)将每一个三元组中的实体、关系分别替换成为相应的id;(2)基于类别与关系构建分层的子图索引,并将其存储于hdfs文件中;(3)将sparql查询所涉及到的操作通过spark操作元语进行翻译;(4)根据每个三元组模式的特征分配不同的得分函数,确定sparql查询中每个三元组模式的执行顺序;(5)根据三元组模式的执行顺序、spark操作元语执行查询与链接,并将其链接结果通过映射表进行解析后返回。本发明支持海量语义数据的高效查询,具有很强的扩展性,对基于大规模语义数据的查询应用具有很好的实用价值。

技术领域

本发明涉及计算机存储查询技术,具体涉及一种基于spark的大规模 知识图谱语义查询方法。

背景技术

随着语义Web的快速发展,语义数据量呈现爆炸性增长,大量的以 RDF格式的语义数据被学术界与工业界的研究人员所发布。例如google 的知识图谱就有超过6亿个实体和200亿条事实(2012年),wikidata项目 也包含了超过2000万千万个page,每个page包含大量的三元组事实, YAGO和DBPedia也包含了超过亿条记录,开放关联数据(Linked OpenData,LOD)项目更是发布了超过2700个数据源,包含总共超过1300亿的 RDF三元组(2016年)。如何在大规模RDF知识图谱上有效地存储查询 是众多研究者面临的棘手问题,而这也一直被认为是制约语义Web相关 技术发展的瓶颈。

sparql查询语言是W3C标准的RDF查询语言,它由多个查询模式组 成,每一个查询模式也是一个三元组,包含了若干变量。传统的基于RDF 的存储查询引擎通过构建主谓宾的排列索引取得查询性能的提升,但同时 这也会耗用大量的存储空间,并且大部分的这些引擎都是基于单机的,可 扩展性较差,仅适合于小规模RDF数据的存储查询,面对当前海量的语 义数据,存在计算性能和可扩展性不足等问题。已有的少量分布式处理引 擎如hadoopRDF,虽然借助于分布式平台部分解决了可扩展性问题,但由 于sparql查询的迭代执行特点,其性能仍然收到很大约束,不能满足大规 模语义数据查询的实时性要求,因此其实用性收到很大制约,迫切需要一 个面对海量语义数据的高性能存储查询引擎来改变这种困境。

发明内容

有鉴于此,本发明提供了一种基于spark的大规模知识图谱语义查询 方法。相比其他方法,本发明实现了通过构造合适的索引策略和引入分布 式内存的迭代查询优化方法取得了性能的提升,具备很强的实用价值,可 以对大规模知识图谱进行有效的查询。

一种基于spark的大规模知识图谱语义查询方法,包括以下步骤:

(1)将数据中的每一个实体和关系分配一个单独的id,构建相应的 映射表;然后根据映射表将遍历数据集中的每一个三元组中的实体、关系 分别替换成为相应的id,形成新三元组;

(2)在spark上,基于类别对象与关系对象构建分层的子图索引, 并将该子图索引存储于hdfs文件中;

(3)将sparql查询所涉及到的操作通过spark操作元语进行翻译;

(4)解析sparql查询语句,根据每个三元组模式的特征分配不同的 得分函数,确定sparql查询中每个三元组模式的执行顺序;

(5)根据三元组模式的执行顺序、spark操作元语执行sparql查询与 链接,返回最后链接结果;

(6)将返回的最后链接结果通过映射表进行解析,将解析后的结果 作为查询执行结果。

步骤(1)中,新三元组中的实体与关系都替换成了自己对应的id, 这样不仅可以大大减少分布式存储数据量,还可以有效地提高后期分布式 查询join的效率。

所述步骤(2)的具体步骤为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710326554.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top