[发明专利]一种实时知识图谱构建系统有效

专利信息
申请号: 201910642692.2 申请日: 2019-07-16
公开(公告)号: CN110377757B 公开(公告)日: 2023-02-14
发明(设计)人: 杨仪军 申请(专利权)人: 北京海致星图科技有限公司
主分类号: G06F16/36 分类号: G06F16/36
代理公司: 深圳市恒和大知识产权代理有限公司 44479 代理人: 孟庆茹
地址: 100089 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实时 知识 图谱 构建 系统
【权利要求书】:

1.一种实时知识图谱构建系统,其特征在于:包括应用程序部分、知识存储模块、知识消费模块、知识总线、数据源总线和数据源模块;

其中每个部分的具体工作如下:

A1、数据源模块负责数据采集并接入KAFKA消息队列;

B1、源数据总线负责传输需要提取实体/关系的基础数据;

C1、知识提取模块负责用Spark Streaming消费KAFKA中的基础数据进行实体提取、关系提取;

D1、知识总线负责传输Spark Streaming提取完成的实体/关系数据;

E1、知识消费模块负责消费KAFKA中的实体/关系数据写入对应的外部存储为实时图查询提供查询数据;

F1、应用程序部分负责各种实时查询场景的图查询;

所述数据源总线内设置有KAFKA集群1,所述KAFKA集群1由Server1-3组成,所述知识总线内设置有KAFKA集群11,所述KAFKA集群11由Server11-13组成,其中每个Server中设置有两个操作单元;

所述数据源包括业务服务器日志文件、外部REST API请求、外部数据存储;

所述知识消费模块内包括GDB消费者、HBase消费者和ES消费者,三者具体作用如下:

A2、HBase消费者程序读取消息队列中的实体/关系写入HBase 数据库,供后续查看实体关系详情使用;

B2、GDB消费者程序读取消息队列中的实体/关系写入GDB,供后续实时图查询使用;

C2、ES消费者读取消息队列中的实体写入Elasticsearch,供后续实时查询时实体的二级索引使用;

所述应用程序的K层展开、最短路径、全路径、社区发现查询场景通过调用ES、GDB、HBase对应库的API完成图的关系查找及详情查询;

其中具体操作流程如下:

S1、数据源模块通过Flume/REST API/外部存储获取数据源并将数据源发送至数据源总线,其中Flume通过日志文件获取数据;

S2、数据源总线接收到数据源后对应KAFKA集群1中的Server生成对应数据,并将对应数据发送至知识提取模块内;

S3、知识提取模块将对应数据内的实体/关系数据提取并发送至知识总线,其中若实体/关系数据提取失败则将失败日志通过HBase记录至外部存储内;

S4、知识消费模块将实体/关系数据发送至对应的消费者,其中消费者包括HBase消费者、GDB消费者和ES消费者;

S5、对应消费者将实体/关系数据处理成应用相关数据发送至知识存储模块进行存储,随后发送至应用程序部分,具体情况如下:

A3、GDB消费者将应用相关数据发送至图数据库存储,并通过应用程序部分K层展开;

B3、HBase消费者将应用相关数据发送至HBase存储,并通过REST API得出最短路径,通过应用程序部分显示最短路径;

C3、ES消费者将应用相关数据发送至ES,并通过应用程序部分显示全路径。

2.根据权利要求1所述的一种实时知识图谱构建系统,其特征在于:所有外部数据源通过Flume/JAVA REST API/数据抽取工具/Spark程序读取写入KAFKA消息队列,写入消息队列的地方设置有数据接入信息监控,包括接入数据的文件名称或者关系数据库的表名称、接入时间、接入数据量、成果数据量以及失败数据量,其中失败数据采用HBase记录在外部存储内。

3.根据权利要求1所述的一种实时知识图谱构建系统,其特征在于:采用实时流式处理框架Spark Streaming消费KAFKA内消息进行实体提取、关系提取,提取结果写入KAFKA,写入消息队列的地方设置有数据接入信息监控,包括接入数据的表名称、接入时间、接入数据量、成果数据量、失败数据量,其中失败数据采用HBase记录在外部存储内。

4.根据权利要求1所述的一种实时知识图谱构建系统,其特征在于:所述ES为Elasticsearch的简称。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910642692.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top