[发明专利]一种实时知识图谱构建系统有效
申请号: | 201910642692.2 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110377757B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 杨仪军 | 申请(专利权)人: | 北京海致星图科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 深圳市恒和大知识产权代理有限公司 44479 | 代理人: | 孟庆茹 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 知识 图谱 构建 系统 | ||
1.一种实时知识图谱构建系统,其特征在于:包括应用程序部分、知识存储模块、知识消费模块、知识总线、数据源总线和数据源模块;
其中每个部分的具体工作如下:
A1、数据源模块负责数据采集并接入KAFKA消息队列;
B1、源数据总线负责传输需要提取实体/关系的基础数据;
C1、知识提取模块负责用Spark Streaming消费KAFKA中的基础数据进行实体提取、关系提取;
D1、知识总线负责传输Spark Streaming提取完成的实体/关系数据;
E1、知识消费模块负责消费KAFKA中的实体/关系数据写入对应的外部存储为实时图查询提供查询数据;
F1、应用程序部分负责各种实时查询场景的图查询;
所述数据源总线内设置有KAFKA集群1,所述KAFKA集群1由Server1-3组成,所述知识总线内设置有KAFKA集群11,所述KAFKA集群11由Server11-13组成,其中每个Server中设置有两个操作单元;
所述数据源包括业务服务器日志文件、外部REST API请求、外部数据存储;
所述知识消费模块内包括GDB消费者、HBase消费者和ES消费者,三者具体作用如下:
A2、HBase消费者程序读取消息队列中的实体/关系写入HBase 数据库,供后续查看实体关系详情使用;
B2、GDB消费者程序读取消息队列中的实体/关系写入GDB,供后续实时图查询使用;
C2、ES消费者读取消息队列中的实体写入Elasticsearch,供后续实时查询时实体的二级索引使用;
所述应用程序的K层展开、最短路径、全路径、社区发现查询场景通过调用ES、GDB、HBase对应库的API完成图的关系查找及详情查询;
其中具体操作流程如下:
S1、数据源模块通过Flume/REST API/外部存储获取数据源并将数据源发送至数据源总线,其中Flume通过日志文件获取数据;
S2、数据源总线接收到数据源后对应KAFKA集群1中的Server生成对应数据,并将对应数据发送至知识提取模块内;
S3、知识提取模块将对应数据内的实体/关系数据提取并发送至知识总线,其中若实体/关系数据提取失败则将失败日志通过HBase记录至外部存储内;
S4、知识消费模块将实体/关系数据发送至对应的消费者,其中消费者包括HBase消费者、GDB消费者和ES消费者;
S5、对应消费者将实体/关系数据处理成应用相关数据发送至知识存储模块进行存储,随后发送至应用程序部分,具体情况如下:
A3、GDB消费者将应用相关数据发送至图数据库存储,并通过应用程序部分K层展开;
B3、HBase消费者将应用相关数据发送至HBase存储,并通过REST API得出最短路径,通过应用程序部分显示最短路径;
C3、ES消费者将应用相关数据发送至ES,并通过应用程序部分显示全路径。
2.根据权利要求1所述的一种实时知识图谱构建系统,其特征在于:所有外部数据源通过Flume/JAVA REST API/数据抽取工具/Spark程序读取写入KAFKA消息队列,写入消息队列的地方设置有数据接入信息监控,包括接入数据的文件名称或者关系数据库的表名称、接入时间、接入数据量、成果数据量以及失败数据量,其中失败数据采用HBase记录在外部存储内。
3.根据权利要求1所述的一种实时知识图谱构建系统,其特征在于:采用实时流式处理框架Spark Streaming消费KAFKA内消息进行实体提取、关系提取,提取结果写入KAFKA,写入消息队列的地方设置有数据接入信息监控,包括接入数据的表名称、接入时间、接入数据量、成果数据量、失败数据量,其中失败数据采用HBase记录在外部存储内。
4.根据权利要求1所述的一种实时知识图谱构建系统,其特征在于:所述ES为Elasticsearch的简称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910642692.2/1.html,转载请声明来源钻瓜专利网。