[发明专利]实体关系的获取方法、装置、计算机可读介质及电子设备有效
申请号: | 201810545940.7 | 申请日: | 2018-05-25 |
公开(公告)号: | CN110162768B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 谭小龙;汤煌;张小鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 获取 方法 装置 计算机 可读 介质 电子设备 | ||
本发明的实施例提供了一种实体关系的获取方法、装置、计算机可读介质及电子设备。该实体关系的获取方法包括:根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合;根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,获取各候选实体关系组合的关联度;根据各候选实体关系组合的关联度确定实体关系。本发明实施例的技术方案能够基于候选实体关系组合的统计信息获取候选实体关系组合的关联度,从而减小了实体关系获取的实现复杂度和计算量。
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种实体关系的获取方法、装置、计算机可读介质及电子设备。
背景技术
知识图谱(Knowledge Graph/Vault)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱中主要包含实体以及实体与实体之间的关系,如公司与公司之间的关系、机构与机构之间的关系等,因此获得两个实体之间的关系是构建和完善知识图谱必不可少的步骤。此外,获得实体之间的关系在搜索、智能人机交互、语义标注、机器翻译、公共安全等领域均有重要应用。
现有技术中的三元组的关系抽取技术,如图1所示,通常基于候选三元组,进行特征获取;获取特征后,转化为分类问题。在这种方式中,特征获取的过程中,往往需要较多的处理与计算步骤,且实现起来相对复杂。此外,转为分类过程后,很多方法都需要构建一些人工标注的训练语料,耗费较多时间和精力。
因此,需要一种新的实体关系的获取方法、装置、计算机可读介质及电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种实体关系的获取方法、装置、计算机可读介质及电子设备,进而至少在一定程度上克服相关技术中存在的特征获取计算量较大、分类过程需要构建人工标注的训练语料导致耗费较多时间的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一方面,提供了一种实体关系的获取方法,包括:根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合;根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,获取各候选实体关系组合的关联度;根据各候选实体关系组合的关联度确定实体关系。
在本发明的一些实施例中,基于前述方案,还包括:对第三语料库中的文本进行分词,获得分词结果;获取所述分词结果中的名词的文档频率;选择文档频率超过频率阈值的名词以构建所述关系词库。
在本发明的一些实施例中,基于前述方案,还包括:将结构化数据中抽取的关系词添加至所述关系词库中。
在本发明的一些实施例中,基于前述方案,还包括:从第三语料库中获取实体以构建所述实体库。
在本发明的一些实施例中,基于前述方案,所述第一语料库包括所述第二语料库。
在本发明的一些实施例中,基于前述方案,所述第二语料库包括百科语料库和新闻语料库。
在本发明的一些实施例中,基于前述方案,所述第三语料库包括百科语料库,所述实体库中的实体包括所述百科语料库的实体词条。
在本发明的一些实施例中,基于前述方案,还包括:对各候选实体关系组合的关联度进行归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810545940.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本纠错的方法和装置
- 下一篇:文本主题输出方法和装置、存储介质及电子装置