[发明专利]一种知识图谱中实体对齐方法和装置在审
申请号: | 201810687695.3 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108984661A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 丁军;何翔;朱俊杰 | 申请(专利权)人: | 上海海乂知信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 200082 上海市杨浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对齐 方法和装置 图谱 非结构化数据 链接数据 计算机网络技术领域 结构化数据 描述方式 同义关系 数据源 准确率 开放 抽取 自动化 | ||
本发明公开了一种知识图谱中实体对齐方法和装置,涉及计算机网络技术领域。本发明的知识图谱中实体对齐方法包括基于同义实体描述方式对不同开放链接数据集中的实体进行对齐;基于百科中的结构化数据和SVM分类模型对不同百科中的实体进行对齐;基于语言学模式和开放同义关系抽取模型对非结构化数据中的实体进行对齐;将所述不同开放链接数据集中的实体、不同百科中的实体以及非结构化数据中的实体进行对齐。本发明的一种知识图谱中实体对齐方法和装置自动化实现多种数据源实体对齐,同时提高准确率。
技术领域
本发明涉及计算机网络技术领域,特别是指一种知识图谱中实体对齐方法和装置。
背景技术
实体(概念)对齐也叫同义关系抽取,是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体或概念。随着互联网中开放链接数据和用户生成内容的增长,利用开放链接数据和在线百科可以有效的提升同义关系抽取的准确率和效率。
在互联网中,描述同一实体的数据通常会在多个地方出现,例如在不同的百科中存在对同一实体的描述,因此,在构建知识图谱时,尤其当从多类数据源获取实体时,必须把这些描述同一实体的数据进行对齐。在实体对齐相关的研究中,大部分研究都是在多种语言之间进行对齐,例如在英文和中文之间。在现有的知识图谱构建方法中,实体的主要来源是开放链接数据,开放知识库和在线百科,因此,行业知识图谱的实体对齐工作主要就是在这些不同的数据集之间进行。
通常同义关系抽取的方法有基于词典的方法、基于词法模式的方法和浅层语义分析。基于词典的方法,词典的编制过程耗时且难以涵盖所有的方面,特别容易产生错误,系统可移植性不好,对于不同行业需要专家重新编制词典,系统建设周期长、移植性差;基于词法模式的方法的依据是自然语言语句中通常有用于描述同义关系的词汇上下文,通常采用基于手工编写模式的方法,也有少数规则学习的方法,该方法也依赖于语言学专家对规则的编写;浅层语义分析是在自然语言处理中一种用于分析文档集合及其包含词汇间关系的技术,通常采用一个“词汇-文档”矩阵描述词汇在文档中的出现情况,其缺点在于无法捕捉一词多义的现象,同时具有词袋模型的缺点,即在一篇文章,或者一个句子中忽略词语的先后顺序。
因此,目前在行业知识图谱的实体对齐工作中需要一种准确率高、自动化实现多种数据源实体对齐的方法。
发明内容
为解决上述技术问题,本发明提供了一种知识图谱中实体对齐方法和装置,能够自动化实现多种数据源实体对齐,同时提高准确率。
本发明提供技术方案如下:
一方面,本发明提供了一种知识图谱中实体对齐方法,包括:
基于同义实体描述方式对不同开放链接数据集中的实体进行对齐;
基于百科中的结构化数据和SVM分类模型对不同百科中的实体进行对齐;
基于语言学模式和开放同义关系抽取模型对非结构化数据中的实体进行对齐;
将所述不同开放链接数据集中的实体、不同百科中的实体以及非结构化数据中的实体进行对齐。
根据本发明的一实施方式,所述基于同义实体描述方式对不同开放链接数据集中的实体进行对齐的步骤包括:
基于同义实体描述方式抽取不同开放链接数据集中同义关系;
根据抽取的同义关系对不同开放链接数据集中的实体进行对齐。
根据本发明的另一实施方式,所述基于百科中的结构化数据和SVM分类模型对不同百科中的实体进行对齐的步骤包括:
基于百科中的结构化数据对同一百科中的实体进行对齐,所述百科中的结构化数据包括重定向页面数据和信息模块数据;
基于SVM分类模型对不同百科中的实体进行对齐;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海乂知信息科技有限公司,未经上海海乂知信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810687695.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种MySQL数据库主从同步数据去重方法
- 下一篇:一种区块链数据同步方法