[发明专利]一种实时知识图谱构建系统有效

申请号：	201910642692.2	申请日：	2019-07-16
公开（公告）号：	CN110377757B	公开（公告）日：	2023-02-14
发明（设计）人：	杨仪军	申请（专利权）人：	北京海致星图科技有限公司
主分类号：	G06F16/36	分类号：	G06F16/36
代理公司：	深圳市恒和大知识产权代理有限公司 44479	代理人：	孟庆茹
地址：	100089 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实时知识图谱构建系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种实时知识图谱构建系统，涉及图分析平台技术领域。该实时知识图谱构建系统，包括应用程序部分、知识存储模块、知识消费模块、知识总线、数据源总线和数据源模块；其中每个部分的具体工作如下：A1、数据源模块负责数据采集并接入KAFKA消息队列；B1、源数据总线负责传输需要提取实体/关系的基础数据；C1、知识提取模块负责用SparkStreaming消费KAFKA中的基础数据进行实体提取、关系提取。该实时知识图谱构建系统，通过应用程序部分、知识存储模块、数据源总线和数据源模块等模块的配合使用，使用Spark Streaming消费KAFKA中的基础数据进行实体提取、关系提取，将失败数据采用HBase记录在外部存储内，同时可以解决提取数据丢失或者重复以及数据源接入单一的问题。

技术领域

本发明涉及图分析平台技术领域，具体为一种实时知识图谱构建系统。

背景技术

Kafka是一种开源流处理平台，由Scala和Java编写，是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据，这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素，这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决，对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案，Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

在现有技术中，在实际的实时图谱构建领域的应用很少，基本上是T+1(一天构建一次图谱关系)，因此无法实现一次性提取出精确的知识提取结果，难以很好的适应对数据准确性要求较高的业务，同时知识提取存在较高的延迟，容易出现知识提取数据丢失或者重复的情况，支持和考虑的数据源较少，方案的扩展性不高，给使用者的使用带来不便。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种实时知识图谱构建系统，解决了在现有技术中，在实际的实时图谱构建领域的应用很少，基本上是T+1(一天构建一次图谱关系)，因此无法实现一次性提取出精确的知识提取结果，难以很好的适应对数据准确性要求较高的业务，同时知识提取存在较高的延迟，容易出现知识提取数据丢失或者重复的情况，支持和考虑的数据源较少，方案的扩展性不高的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种实时知识图谱构建系统，包括应用程序部分、知识存储模块、知识消费模块、知识总线、数据源总线和数据源模块；

其中每个部分的具体工作如下：

A1、数据源模块负责数据采集并接入KAFKA消息队列；

B1、源数据总线负责传输需要提取实体/关系的基础数据；

C1、知识提取模块负责用Spark Streaming消费KAFKA中的基础数据进行实体提取、关系提取；

D1、知识总线负责传输Spark Streaming提取完成的实体/关系数据；

E1、知识消费模块负责消费KAFKA中的实体/关系数据写入对应的外部存储为实时图查询提供查询数据；

F1、应用程序部分负责各种实时查询场景的图查询；

所述数据源总线内设置有KAFKA集群1，所述KAFKA集群1由Server1-3组成，所述知识总线内设置有KAFKA集群11，所述KAFKA集群11由Server11-13组成，其中每个Server中设置有两个操作单元；

所述数据源包括业务服务器日志文件、外部REST API请求、外部数据存储；

所述知识消费模块内包括GDB消费者、HBase消费者和ES消费者，三者具体作用如下：