[发明专利]一种实体关联方法、装置及计算机可读存储介质有效
申请号: | 201911378790.6 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111159423B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 袁婧;牟小峰 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/295;G06F40/30;G06F18/22 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关联 方法 装置 计算机 可读 存储 介质 | ||
一种实体关联方法、装置及计算机可读存储介质,包括:获取待处理文本的特征向量;根据待处理文本中实体之间的关系构造实体对;针对每一个实体对在知识图谱中获取非泛化关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体对与待处理文本的第一相似度;针对待处理文本中每一个实体在知识图谱中获取关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体与待处理文本的第二相似度;根据包含待处理文本中实体的实体对对应的第一相似度和实体对应的第二相似度获取实体与知识图谱的关联得分;当关联得分超过预设阈值,将实体关联到第二相似度对应的知识图谱节点上。由于利用了多实体之间的关系,因此提高了实体的关联成功率。
技术领域
本文涉及知识图谱技术,尤指一种实体关联方法、装置及计算机可读存 储介质。
背景技术
实体关联是指将文本中提及到的实体关联到知识图谱中对应的节点。
相关技术中,实体关联的常见做法是,对文本中实体的上下文语义向量, 与知识图谱中的节点的属性和关系组成的向量计算相似度,并对相似度分值 排序,相似度分值超过阈值则关联到知识图谱的节点上,否则不关联。
然而,这种方法只能关联上下文描述信息与知识图谱中节点的属性和关 系信息关联度较高的实体,而无法关联上下文描述信息与知识图谱中节点的 属性和关系信息相关度较低的实体,因此使得文本中实体的关联成功率低下。
发明内容
本申请提供了一种实体关联方法、装置及计算机可读存储介质,能够关 联上下文描述信息与知识图谱中节点的属性和关系信息相关度较低的实体, 从而提高实体的关联成功率。
本申请提供了一种实体关联方法,包括:
获取待处理文本的特征向量;其中,所述待处理文本中包含若干个待关 联至知识图谱中节点的实体;
根据所述待处理文本中实体之间的关系构造若干个实体对;
针对每一个实体对在知识图谱中获取非泛化关系路径的特征向量与所述 待处理文本的特征向量的最大相似度,作为所述实体对与所述待处理文本的 第一相似度;其中,当所述实体对之间不存在非泛化关系路径,所述第一相 似度为0;
针对所述待处理文本中每一个实体在所述知识图谱中获取关系路径的特 征向量与所述待处理文本的特征向量的最大相似度,作为所述实体与所述待 处理文本的第二相似度;
根据包含所述待处理文本中实体的实体对对应的第一相似度和所述实体 对应的第二相似度获取所述实体与所述知识图谱的关联得分;
当关联得分超过预设阈值,将所述实体关联到所述第二相似度对应的知 识图谱中的节点上。
所述获取待处理文本的特征向量,包括:
对所述待处理文本进行分词,对获得的分词进行去停用词和去重处理;
对处理后的分词按照词频进行排序,并统计处理后的分词数量x;
根据获得的分词数量x、预先设置的最低特征词个数a、最大特征词个数 b和所述待处理文本的平均长度t计算分词向量获取个数y;
获取词频排列位于前y位的词的词向量,并将这些词向量进行加法运算 以得到所述待处理文本的特征向量。
所述
所述根据待处理文本中实体之间的关系构造若干个实体对,包括:
获取所述待处理文本中同时出现在若干个样本文件的同一个样本文件的 概率超过预设概率的实体对,作为第一实体对;
获取所述待处理文本的每个语句中距离最近的且除所述第一实体对以外 两个实体组成的实体对,作为第二实体对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911378790.6/2.html,转载请声明来源钻瓜专利网。