[发明专利]一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法有效
申请号: | 201810227329.X | 申请日: | 2018-03-20 |
公开(公告)号: | CN108509543B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 汪璟玢;于龙 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/28;G06F16/2458;G06F16/2453;G06F40/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark streaming rdf 数据 关键词 并行 搜索 方法 | ||
本发明涉及一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,首先将输入的关键词映射到RDF本体图上的类顶点或属性边,构建RDF本体类‑属性二维模型,通过类之间的关系进行剪枝、去重、连接操作,构建对应的本体查询子图;提出一种相关性评价函数,从结构紧密度和内容关联度两个方面对本体查询子图评分、排序;根据本体查询子图的优先级,评分高的先进行搜索,利用MapReduce计算框架并行搜索RDF数据图上匹配的实例三元组,按本体查询子图连接关系进行连接得到前Top‑k的结果。本发明不仅避免了在大量数据图顶点上迭代搜索顶点间连接路径,还提高了查询的精确度,进而提高搜索效率。
技术领域
本发明涉及海量RDF数据流式检索技术领域,特别是一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法。
背景技术
随着大数据的到来,Hadoop等分布式处理平台在进行批量处理的时候具有明显的优势,但是面对流式数据的实时处理却表现出了许多不足,流式数据实时处理平台的出现弥补了分布式批量处理平台在实时处理方面的不足。流式数据实时搜索成为当前一个新的研究热点。互联网上产生各种各样的流式数据,由于数据的异构性,RDF被广泛用于在数据流中提供统一的元数据表示,RDF动态数据流在语义网络社区中引起了相当大的兴趣。为了响应这种不断增长的需求,不少学者研究并提出自己的RDF流式处理架构,其中比较著名的是D.F.Barbieri等提出了C-SPARQL和D.LeP等提出了CQELS,类似SPARQL的查询语言和操作语义,通过在数据流管理系统中定义窗口化技术来实现连续查询。Borthakur D等人基于Hadoop和Hbase提出了一种流式数据的实时搜索算法。另有文献将数据实时写入Nosql数据库中,并且利用三级缓存策略实现了一种流式数据的搜索方法。另有文献结合多级缓存机制提出了一种多源数据缓存的写入方法,该方法具有较高的实时性。蒋晨晨等人基于Storm提出了一种新的实时搜索框架,并且重新设计了分组算子、过滤算子等功能,解决了传统流式查询系统不能满足用户实时查询的不足。然而上述的研究都是针对形式化查询语句的,关于流式数据关键词实时搜索的研究少之又少,研究流式数据的关键词实时搜索方案具有非凡的意义。
RDF关键字搜索的主要目标是如何匹配RDF数据以获得与用户输入关键字相关联的结果。由于普通用户对RDF数据的结构和内容不一定了解,并且不同的用户对同一事物的描述可能存在差异,这就导致了在RDF数据搜索的过程中可能返回空或者少量的结果,而关键字搜索是一种从RDF数据图中检索信息的有效方法,用户无需熟悉任何标准的查询语言结构和底层数据模式,就可以快速高效地检索数据。同时,通过分布式并行方法解决海量RDF数据查询的问题,这已成为学术界和工业界的普遍共识。对于大规模RDF数据的批量搜索,以HDFS和MapReduce为核心的Hadoop在理论上和实践中均取得了显著的成功。但是在实时大数据方面,Hadoop却显得无能为力,存在一定的局限性。为了应对流式大数据实时性、多变性、无限性,推出并应用了越来越多的流式处理系统,其中较为典型的是Storm流式处理框架和构建在Spark上处理Stream数据的Spark Streaming框架。因此,如何研究和实现大规模流式RDF数据的实时多关键字搜索算法成为了一个非常有意义的研究课题。
发明内容
有鉴于此,本发明的目的是提出一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,不仅避免了在大量数据图顶点上迭代搜索顶点间连接路径,还提高了查询的精确度,进而提高搜索效率。
本发明采用以下方案实现:一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法,包括以下步骤:
步骤S1:根据基于Redis的分布式存储方案,将用户输入的关键词映射到RDF本体图上的类顶点或属性边,构建RDF本体类-属性二维模型,通过类之间的关系进行剪枝、去重、连接操作,构建对应的本体查询子图;
步骤S2:构建相关性评价函数,从结构紧密度和内容关联度两个方面对本体查询子图评分、排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810227329.X/2.html,转载请声明来源钻瓜专利网。