[发明专利]一种实体消歧方法、装置、计算机装置及计算机存储介质有效

申请号：	201811508089.7	申请日：	2018-12-11
公开（公告）号：	CN109635297B	公开（公告）日：	2022-01-04
发明（设计）人：	段炼;周忠诚	申请（专利权）人：	湖南星汉数智科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	410000 湖南省长沙市高新开***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实体方法装置计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明适用于互联网技术领域，公开了一种实体消歧方法、装置、计算机装置及计算机存储介质，所述方法包括：构建待消歧实体的基因；根据所述待消歧实体的语义特征从实体库中确定候选实体，其中，所述待消歧实体的语义特征包括名字形式相似性、简称信息及指代特点；计算所述候选实体与所述待消歧实体的基因匹配度，在所述基因匹配度超过预设阈值的情况下，确定所述候选实体与所述待消歧实体的基因相匹配。本发明提供的实体消歧方法，能够提高实体消歧的效果，在实体消歧过程中，逐渐完善链接实体和知识库，有助于提高在海量文本中的目标分析、知识库构建和问答系统等方面的数据处理效率。

技术领域

本发明属于互联网技术领域，尤其涉及一种实体消歧方法、装置、计算机装置及计算机存储介质。

背景技术

自然语言处理过程中存在实体名称歧义性问题，例如，文本中的某个人名可能指代现世界中多个实体。导致实体名称歧义性问题的原因是自然语言表述的自由性、多样性、歧义性。目前，自然语言处理(Natural Language Processing，NLP)研究一直专注于机器翻译、信息检索、文本摘要、问答、信息提取、主题建模以及情感挖掘等任务。传统基于语法分析的自然语言处理技术发展较为缓慢，突破性成果较少。随着深度学习等技术的创新，人工智能在NLP领域得到了广泛的关注。由于自然语言描述中存在同义、近义词，一词多义等情况，加大了自然语言分析的难度，因而自然语言处理中比较关键的问题是实体消歧，实体消歧的主要目的是识别语句中存在多义性的实体名称，并对每一个多义实体名称给出符合其语境的语义。常见的实体消歧方法要求预先存在信息丰富的知识库，在大规模数据源上性能表现差，在互联网数据源上实体消歧的精度低。

发明内容

本发明实施例提供一种实体消歧方法、装置、计算机装置及计算机存储介质，旨在解决现有技术中方法要求预先存在信息丰富的知识库，在大规模数据源上性能表现差，在互联网数据源上实体消歧的精度低的问题。

本发明是这样实现的，一种实体消歧方法，包括以下过程：

构建待消歧实体的基因，所述基因包括：共现实体词基因及实体属性基因，所述共现实体词基因包括共现实体词及共现程度，所述实体属性基因包括所述待消歧实体的属性；

根据所述待消歧实体的语义特征从实体库中确定候选实体，其中，所述待消歧实体的语义特征包括名字形式相似性、简称信息及指代特点；

计算所述候选实体与所述待消歧实体的基因匹配度，在所述基因匹配度超过预设阈值的情况下，确定所述候选实体与所述待消歧实体的基因相匹配。

进一步地，所述计算所述候选实体与所述待消歧实体的基因匹配度，包括以下过程：

获取所述候选实体与所述待消歧实体的共现实体基因匹配度；

获取所述候选实体与所述待消歧实体的属性基因匹配度；

根据所述共现实体基因匹配度和属性基因匹配度，计算所述候选实体与待消歧实体的基因匹配度，计算公式为：

score_g(m,e)＝α*score_w(m,e)+β*score_p(m,e)

其中，score_g(m,e)为基因匹配度，score_w(m,e)为所述共现实体基因匹配度，score_p(m,e)为所述属性基因匹配度，α、β为权重。