[发明专利]一种从多源数据集成视角构建企业知识图谱的方法在审

申请号：	201811060811.5	申请日：	2018-09-12
公开（公告）号：	CN109284394A	公开（公告）日：	2019-01-29
发明（设计）人：	云红艳;贺英;林莉;张秀华;胡欢	申请（专利权）人：	青岛大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/953;G06F16/958;G06N5/02
代理公司：	北京汇捷知识产权代理事务所(普通合伙) 11531	代理人：	李宏伟
地址：	266071 ***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种从多源数据集成视角构建企业知识图谱的方法，知识图谱的构建包含了数据获取、知识融合和知识加工存储过程，并设计基于企业知识图谱的应用检索系统。本发明的有益效果是从构建领域本体和Karma建模实现多源异构数据集成的角度可以快速构建面向企业领域的知识图谱，提高领域知识图谱构建的速度并节省知识图谱构建的成本。构建的企业知识图谱将政府部门存储的企业数据和互联网上的企业数据高效地集成利用起来，将孤立的数据节点融合到统一的知识库中，为用户提供了一个友好、人性化的企业信息服务平台。
搜索关键词：	图谱构建企业知识多源数据企业数据图谱构建知识库多源异构数据企业信息服务应用检索系统视角存储过程快速构建领域本体领域知识数据获取数据节点用户提供政府部门知识加工知识融合人性化建模存储孤立互联网融合统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种从多源数据集成视角构建企业知识图谱的方法，其特征在于：基于本体建模和Karma建模实现多源异构数据集成的视角快速构建企业知识图谱可以分为数据获取、知识融合和知识加工存储；其中，数据获取方法为：数据集一部分来自政府的关系数据库，另一部分通过构建网页爬虫抽取百度百科中相关的企业信息数据，数据采用JSON格式存储，针对百科类网页数据的抽取，构建一套基于WebMagic框架的企业爬虫系统，通过编写正则表达式来获取网页中需要的企业信息数据，爬虫系统框架包括以下四个组件：下载器、页面解析器、调度器、管道组件，在Spider容器中，将这几个组件组织起来，通过相互交互和流程化的执行，根据具体需求完成数据抽取；知识融合方法：针对多源异构的结构化数据集，提出了基于企业法人本体的数据集成方法，对获取到的数据集进行分析和整理，抽取出实体类、对象属性和数据属性本体的相关概念，完成企业领域本体的构建，利用本体构建Karma模型进行多源数据的快速集成与融合；知识加工方法：推理引擎完成企业法人本体和集成发布的企业RDF数据的上下位推理、缺失类别补全、一致性检测和自定义规则推理四大功能，对已有知识进行补全和修正；知识存储方法：采用Neo4j图数据库对知识图谱进行持久化存储，通过构建RDF2Neo4j解释器，将RDF三元组数据导入Neo4j图数据库中进行存储。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于青岛大学，未经青岛大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811060811.5/，转载请声明来源钻瓜专利网。

上一篇：一种针对家谱人物属性名称的融合方法
下一篇：一种基于通用内核本体的军事领域本体构建方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从多源数据集成视角构建企业知识图谱的方法在审

专利文献下载