[发明专利]一种基于spark的大规模知识图谱语义查询方法有效
申请号: | 201710326554.4 | 申请日: | 2017-05-10 |
公开(公告)号: | CN107247738B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 陈华钧;陈曦;张宁豫;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 大规模 知识 图谱 语义 查询 方法 | ||
本发明公开了一种基于spark大规模知识图谱语义查询方法,包括:(1)将每一个三元组中的实体、关系分别替换成为相应的id;(2)基于类别与关系构建分层的子图索引,并将其存储于hdfs文件中;(3)将sparql查询所涉及到的操作通过spark操作元语进行翻译;(4)根据每个三元组模式的特征分配不同的得分函数,确定sparql查询中每个三元组模式的执行顺序;(5)根据三元组模式的执行顺序、spark操作元语执行查询与链接,并将其链接结果通过映射表进行解析后返回。本发明支持海量语义数据的高效查询,具有很强的扩展性,对基于大规模语义数据的查询应用具有很好的实用价值。
技术领域
本发明涉及计算机存储查询技术,具体涉及一种基于spark的大规模 知识图谱语义查询方法。
背景技术
随着语义Web的快速发展,语义数据量呈现爆炸性增长,大量的以 RDF格式的语义数据被学术界与工业界的研究人员所发布。例如google 的知识图谱就有超过6亿个实体和200亿条事实(2012年),wikidata项目 也包含了超过2000万千万个page,每个page包含大量的三元组事实, YAGO和DBPedia也包含了超过亿条记录,开放关联数据(Linked OpenData,LOD)项目更是发布了超过2700个数据源,包含总共超过1300亿的 RDF三元组(2016年)。如何在大规模RDF知识图谱上有效地存储查询 是众多研究者面临的棘手问题,而这也一直被认为是制约语义Web相关 技术发展的瓶颈。
sparql查询语言是W3C标准的RDF查询语言,它由多个查询模式组 成,每一个查询模式也是一个三元组,包含了若干变量。传统的基于RDF 的存储查询引擎通过构建主谓宾的排列索引取得查询性能的提升,但同时 这也会耗用大量的存储空间,并且大部分的这些引擎都是基于单机的,可 扩展性较差,仅适合于小规模RDF数据的存储查询,面对当前海量的语 义数据,存在计算性能和可扩展性不足等问题。已有的少量分布式处理引 擎如hadoopRDF,虽然借助于分布式平台部分解决了可扩展性问题,但由 于sparql查询的迭代执行特点,其性能仍然收到很大约束,不能满足大规 模语义数据查询的实时性要求,因此其实用性收到很大制约,迫切需要一 个面对海量语义数据的高性能存储查询引擎来改变这种困境。
发明内容
有鉴于此,本发明提供了一种基于spark的大规模知识图谱语义查询 方法。相比其他方法,本发明实现了通过构造合适的索引策略和引入分布 式内存的迭代查询优化方法取得了性能的提升,具备很强的实用价值,可 以对大规模知识图谱进行有效的查询。
一种基于spark的大规模知识图谱语义查询方法,包括以下步骤:
(1)将数据中的每一个实体和关系分配一个单独的id,构建相应的 映射表;然后根据映射表将遍历数据集中的每一个三元组中的实体、关系 分别替换成为相应的id,形成新三元组;
(2)在spark上,基于类别对象与关系对象构建分层的子图索引, 并将该子图索引存储于hdfs文件中;
(3)将sparql查询所涉及到的操作通过spark操作元语进行翻译;
(4)解析sparql查询语句,根据每个三元组模式的特征分配不同的 得分函数,确定sparql查询中每个三元组模式的执行顺序;
(5)根据三元组模式的执行顺序、spark操作元语执行sparql查询与 链接,返回最后链接结果;
(6)将返回的最后链接结果通过映射表进行解析,将解析后的结果 作为查询执行结果。
步骤(1)中,新三元组中的实体与关系都替换成了自己对应的id, 这样不仅可以大大减少分布式存储数据量,还可以有效地提高后期分布式 查询join的效率。
所述步骤(2)的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710326554.4/2.html,转载请声明来源钻瓜专利网。