[发明专利]基于多语言的实体消歧方法、装置、设备和存储介质有效
申请号: | 201910588561.0 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110427612B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 孙佳兴;李琦;谢云;陈泽晖 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/049;G06N3/0442;G06N3/0464 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 王珊珊 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 实体 方法 装置 设备 存储 介质 | ||
1.一种基于多语言的实体消歧方法,所述方法包括:
获取与待消歧的多个实体对应的不同语言的多个简介文本;所述多个实体对应相同的实体名称;
将多个所述简介文本分别输入至不同语言对应、且预训练的关键属性信息处理模型中,通过所述关键属性信息处理模型,对多个所述简介文本进行特征提取分析,得到所述多个简介文本中各字符对应的标识符号,根据所述标识符号,确定与各所述实体对应的关键属性信息;
通过所述关键属性信息处理模型的中间层,提取与所述关键属性信息对应的特征向量;
根据与所述关键属性信息对应的特征向量,在多个属性维度上分别计算多个所述实体间的语义相似度;
获取与所述多个属性维度分别对应的加权系数,依据所述加权系数,对所述多个实体在所述多个属性维度上的语义相似度进行加权求和,得到所述待消歧的多个实体间的综合语义相似度;
依据所述综合语义相似度,对所述多个实体进行消歧。
2.根据权利要求1所述的方法,其特征在于,所述获取与待消歧的多个实体对应的不同语言的多个简介文本,包括:
获取待处理的不同语言的多源数据;
确定所述不同语言的多源数据所对应实体的实体名称;
将对应于相同实体名称的所述不同语言的多源数据划分为同组多源数据;
分别提取各组多源数据中的不同语言的简介文本,并将提取的所述不同语言的简介文本作为与待消歧的多个实体分别对应的不同语言的简介文本。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述待消歧的多个实体在预设属性维度上所对应的预设属性相似度;
根据所述预设属性相似度,动态调整所述加权系数;
所述依据所述加权系数,对所述多个实体在所述多个属性维度上的语义相似度进行加权求和,得到所述待消歧的多个实体间的综合相似度,包括:
依据调整后的所述加权系数,对所述多个实体在所述多个属性维度上的语义相似度进行加权求和,得到所述待消歧的多个实体间的综合相似度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当根据所述语义相似度无法确定所述待消歧的多个实体是否为同一实体时,将与各实体分别对应的关键属性信息分别输入至预训练的机器翻译模型;
通过所述机器翻译模型,输出与各所述实体分别对应的、且属于目标语种的目标关键属性信息;
根据所述目标关键属性信息,在多个属性维度上分别计算所述多个实体间的关键属性相似度;
依据所述关键属性相似度,对所述多个实体进行消歧。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述关键属性信息处理模型的训练步骤包括:
获取不同语言的样本简介文本;
依据样本标记字符对所述不同语言的样本简介文本中的关键样本属性信息进行标记;
将所述不同语言的样本简介文本输入至关键属性信息处理模型,通过所述关键属性信息处理模型输出中间结果;
依据所述中间结果和所述样本标记字符之间的差异调整模型参数,直到满足训练停止条件为止。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述实体包括人物实体;所述实体名称包括人物名称;所述不同语言的简介文本包括不同语言的简历文本;所述关键属性信息包括不同语言的学校名称、学历级别、专业名称、企业名称以及部门名称中的多种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910588561.0/1.html,转载请声明来源钻瓜专利网。