[发明专利]实体链接的方法、装置、电子设备和存储介质在审
申请号: | 202210499774.8 | 申请日: | 2022-05-09 |
公开(公告)号: | CN114969358A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 程飞;张浩宇;吴飞;方四安 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/279;G06F40/30;G06K9/62 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 尚文文 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 链接 方法 装置 电子设备 存储 介质 | ||
1.一种实体链接的方法,其特征在于,包括:
分别计算待链接实体与实体库中的各个候选实体的字相似度、词相似度和语义相似度;
根据待链接实体与各个候选实体的字相似度、词相似度和语义相似度,确定所述待链接实体与各个候选实体的实体相似度;
将与待链接实体的实体相似度最高的候选实体,确定为与待链接实体对应的链接实体。
2.根据权利要求1所述的方法,其特征在于,所述实体库为按照预设的实体清洗方法预先清洗过的实体库;
在分别计算待链接实体与实体库中的各个候选实体的字相似度、词相似度和语义相似度之前,还包括:按照预设的实体清洗方法,清洗所述待链接实体。
3.根据权利要求2所述的方法,其特征在于,所述按照预设的实体清洗方法,清洗所述待链接实体,包括:
对所述待链接实体进行分词处理,得到所述待链接实体的多个目标分词;
确定每个目标分词的剔除度;
将剔除度大于第一预设剔除度阈值的目标分词从所述待链接实体中剔除,得到清洗后的待链接实体。
4.根据权利要求3所述的方法,其特征在于,所述确定每个目标分词的剔除度,包括:
基于实体库中的目标实体,统计每个目标分词的实体次序频次;其中,所述目标实体为包含所述目标分词的实体,所述实体次序频次为目标分词在目标实体中所处的次序在实体库中的频次;
确定每个目标分词在目标实体中所处的次序的次序权重;
将每个目标分词在目标实体中所处的次序的次序权重,作为对应的实体次序频次的权重,计算目标分词对应的各个实体次序频次的加权和;
利用待链接实体中的每个目标分词的分词次序权重,修正目标分词对应的加权和,得到对应目标分词的剔除度。
5.根据权利要求1所述的方法,其特征在于,计算待链接实体与候选实体的语义相似度,包括:
分别确定待链接实体与候选实体的关键实体分词;
确定待链接实体与候选实体的关键实体分词之间的第一相似度,以及,确定待链接实体与候选实体之间的第二相似度;
取第一相似度和第二相似度中的最大相似度作为待链接实体与候选实体之间的语义相似度。
6.根据权利要求5所述的方法,其特征在于,所述分别确定待链接实体与候选实体的关键实体分词,包括:
随机覆盖所述待链接实体与候选实体中剔除度大于第二预设剔除度阈值的目标分词,得到所述关键实体分词;
所述剔除度根据每个目标分词的实体次序频次,以及,每个目标分词在目标实体中所处的次序的次序权重得到;所述目标分词通过对所述待链接实体与候选实体进行分词处理得到,所述目标实体为包含所述目标分词的实体,所述实体次序频次为目标分词在目标实体中所处的次序在实体库中的频次。
7.根据权利要求5所述的方法,其特征在于,所述确定待链接实体与候选实体的关键实体分词之间的第一相似度,以及,确定待链接实体与候选实体之间的第二相似度,包括:
将待链接实体、候选实体、以及待链接实体与候选实体的关键实体分词均输入到预先训练的相似度计算模型中,得到所述第一相似度和所述第二相似度;其中,所述相似度计算模型通过相似实体差异化训练和相似度计算训练得到;所述相似实体差异化训练,用于训练所述相似度计算模型识别相似实体和非相似实体的能力。
8.根据权利要求7所述的方法,其特征在于,所述相似度计算模型包括设置在前馈网络后的适配器组件;
在对所述相似度计算模型进行相似实体差异化训练和相似度计算训练的过程中,对所述适配器组件的参数进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210499774.8/1.html,转载请声明来源钻瓜专利网。