[发明专利]一种基于规则的Spark分布式弹性语义流推理方法有效
申请号: | 202110482360.X | 申请日: | 2021-04-30 |
公开(公告)号: | CN113191498B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 李韧;张露伊;杨建喜;王桂平 | 申请(专利权)人: | 重庆交通大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N5/02;G06F16/36 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 张先芸 |
地址: | 400074 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 spark 分布式 弹性 语义 推理 方法 | ||
本发明公开了一种基于规则的Spark分布式弹性语义流推理方法,包括:S1、获取RDF图;S2、为RDF图的标识符构建双向字典;S3、对RDF图进行划分得到模式图模型和实例图模型;S4、利用双向字典基于模式图模型和实例图模型设计对应的键值模型;S5、基于规则的Spark分布式弹性语义流推理引擎模块读取模式图模型和实例图模型中的模式数据和实例数据,根据RDFS规则的优化顺序执行Spark作业。与现有技术相比,本发明采用分布式内存计算模型Spark,把面向分布式数据集的操作抽象成面向本地数据集的操作,进一步提高了大数据处理环境下迭代计算的效率,并且实现了分布式的内存RDFS推理,有助于进一步提升RDFS推理效率和可扩展性。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于规则的Spark分布式弹性语义流推理方法。
背景技术
语义网的快速发展使得人们可获得大量的知识图谱RDF数据。然而,大多数传统推理器都是基于集中式架构设计的,使得传统推理器在性能和可伸缩性方面表现较差,不可避免的限制了处理网络规模数据的可能性。
在分布式环境下,对大量的RDF数据进行高效的RDF模式(RDFS)推理和SPARQL查询是语义网领域的一项关键而富有挑战性的任务。目前,研究人员已经提出了几种大规模RDF数据的分布式查询和推理方法。但是,大多数都是基于MapReduce的并行推理方法,效率有待进一步提高。
综上所述,本发明公开了一种基于规则的Spark分布式弹性语义流推理方法,采用分布式内存计算模型Spark,把面向分布式数据集的操作抽象成面向本地数据集的操作,进一步提高了大数据处理环境下迭代计算的效率,并且实现了分布式的内存RDFS推理,有助于进一步提升RDFS推理效率和可扩展性。
发明内容
针对上述现有技术的不足,本发明公开了一种基于规则的Spark分布式弹性语义流推理方法,采用分布式内存计算模型Spark,把面向分布式数据集的操作抽象成面向本地数据集的操作,进一步提高了大数据处理环境下迭代计算的效率,并且实现了分布式的内存RDFS推理,有助于进一步提升RDFS推理效率和可扩展性。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种基于规则的Spark分布式弹性语义流推理方法,包括:
S1、获取RDF图;
S2、为RDF图的标识符构建双向字典;
S3、对RDF图进行划分得到模式图模型和实例图模型;
S4、利用双向字典基于模式图模型和实例图模型设计对应的键值模型;
S5、基于规则的Spark分布式弹性语义流推理引擎模块读取模式图模型和实例图模型中的模式数据和实例数据,根据RDFS规则的优化顺序执行Spark作业。
优选地,步骤S3包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆交通大学,未经重庆交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110482360.X/2.html,转载请声明来源钻瓜专利网。