[发明专利]实体消歧方法、装置、计算机设备和存储介质在审
申请号: | 201910588560.6 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110457680A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 孙佳兴;戴飞翔;叶曙峰;黄鸿顺 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36 |
代理公司: | 44224 广州华进联合专利商标代理有限公司 | 代理人: | 姜晓云<国际申请>=<国际公布>=<进入 |
地址: | 518033广东省深圳市福田区福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消歧 信息提取模型 综合相似度 多个属性 关键属性 简介数据 相似度 维度 非结构化数据 数据分析技术 计算机设备 存储介质 求和 准确率 加权 申请 | ||
本申请涉及一种实体消歧方法、装置、计算机设备和存储介质。所述方法包括:获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;依据所述综合相似度,对所述待消歧的多个实体进行消歧。采用基于数据分析技术的本方法能够提高对包括非结构化数据的实体进行消歧的准确率。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种实体消歧方法、装置、计算机设备和存储介质。
背景技术
实体消歧也称语义消歧,专门用于解决同名实体产生歧义的问题。比如,对于两个实体名称均为“张三”的实体,是指向同一人物,还是不同人物,有待进行消歧处理。实体消歧在搜索系统、问答系统、和知识库等领域有着广泛的应用。网络资源中存在大量的重名现象,在分析理解文本的时候,进行实体消歧,以明确实体的正确指向具有非常大的现实意义。
传统的实体消歧方式主要是针对结构化数据为主的实体,而对于数据质量差,或者是非结构化数据为主的实体,目前并没有很好的方案可以实现实体消歧。而对于很多从网络上爬取的数据而言,大多却是非结构化数据,如何正确分析这些数据,以明确实体的正确指向是亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确地对包括非结构化数据的实体进行实体消歧,以明确实体的正确指向的实体消歧方法、装置、计算机设备和存储介质。
一种实体消歧方法,所述方法包括:
获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;
将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;
根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;
对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;
依据所述综合相似度,对所述待消歧的多个实体进行消歧。
一种实体消歧装置,所述装置包括:
获取模块,用于获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;
提取模块,用于将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;
计算模块,用于根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;
所述计算模块还用于对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;
确定模块,用于依据所述综合相似度,对所述待消歧的多个实体进行消歧。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;
将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910588560.6/2.html,转载请声明来源钻瓜专利网。