[发明专利]实体消歧方法、装置、计算机设备和存储介质在审
申请号: | 201910588560.6 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110457680A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 孙佳兴;戴飞翔;叶曙峰;黄鸿顺 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36 |
代理公司: | 44224 广州华进联合专利商标代理有限公司 | 代理人: | 姜晓云<国际申请>=<国际公布>=<进入 |
地址: | 518033广东省深圳市福田区福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消歧 信息提取模型 综合相似度 多个属性 关键属性 简介数据 相似度 维度 非结构化数据 数据分析技术 计算机设备 存储介质 求和 准确率 加权 申请 | ||
1.一种实体消歧方法,所述方法包括:
获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;
将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;
根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;
对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;
依据所述综合相似度,对所述待消歧的多个实体进行消歧。
2.根据权利要求1所述的方法,其特征在于,所述获取与待消歧的多个实体分别对应的简介数据,包括:
获取待处理的多源数据;
确定所述多源数据所对应实体的实体名称;
将对应于相同实体名称的所述多源数据划分为同组多源数据;
分别提取各组多源数据中的简介数据,并将提取的所述简介数据作为与待消歧的多个实体分别对应的简介数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度,包括:
对于多个所述实体中待比较的两个实体,在各属性维度上,分别将所述待比较的两个实体对应的关键属性信息拆分成多个字符,组成与所述待比较的两个实体分别对应、且与各属性维度分别对应的字符集合;
从所述字符集合中,挑选出与所述待比较的两个实体均对应的字符,组成字符交集集合;
根据所述字符集合,确定与各属性维度分别对应的字符总集合;
在各属性维度上,分别计算所述字符交集集合与所述字符总集合的字符重合度;
将各属性维度所对应的字符重合度作为待比较的两个在各属性维度上所对应的相似度。
4.根据权利要求1所述的方法,其特征在于,所述对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度,包括:
对于每组待比较的两个实体,确定所述待比较的两个实体在预设属性维度上所对应的预设属性相似度;
确定与所述预设属性相似度对应配置的加权系数;
根据所述加权系数,对所述待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到所述待比较的两个实体间的综合相似度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待消歧的多个实体为相似实体时,分别获取与所述实体对应的多源数据;
将对应于所述待消歧的多个实体的多源数据进行数据融合。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述信息提取模型的训练步骤包括:
获取样本简介数据;
依据样本标记字符对所述样本简介数据中的关键样本属性信息进行标记;
将所述样本简介数据输入至信息提取模型,通过所述信息提取模型输出中间结果;
依据所述中间结果和所述样本标记字符之间的差异调整模型参数,直到满足训练停止条件为止。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述实体包括人物实体;所述实体名称包括人物名称;所述简介数据包括简历数据;所述关键属性信息包括学校名称、学历级别、专业名称、企业名称、及部门名称中的多种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910588560.6/1.html,转载请声明来源钻瓜专利网。