[发明专利]一种实体消歧方法、装置、计算机装置及计算机存储介质有效
申请号: | 201811508089.7 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109635297B | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 段炼;周忠诚 | 申请(专利权)人: | 湖南星汉数智科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市高新开*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 方法 装置 计算机 存储 介质 | ||
本发明适用于互联网技术领域,公开了一种实体消歧方法、装置、计算机装置及计算机存储介质,所述方法包括:构建待消歧实体的基因;根据所述待消歧实体的语义特征从实体库中确定候选实体,其中,所述待消歧实体的语义特征包括名字形式相似性、简称信息及指代特点;计算所述候选实体与所述待消歧实体的基因匹配度,在所述基因匹配度超过预设阈值的情况下,确定所述候选实体与所述待消歧实体的基因相匹配。本发明提供的实体消歧方法,能够提高实体消歧的效果,在实体消歧过程中,逐渐完善链接实体和知识库,有助于提高在海量文本中的目标分析、知识库构建和问答系统等方面的数据处理效率。
技术领域
本发明属于互联网技术领域,尤其涉及一种实体消歧方法、装置、计算机装置及计算机存储介质。
背景技术
自然语言处理过程中存在实体名称歧义性问题,例如,文本中的某个人名可能指代现世界中多个实体。导致实体名称歧义性问题的原因是自然语言表述的自由性、多样性、歧义性。目前,自然语言处理(Natural Language Processing,NLP)研究一直专注于机器翻译、信息检索、文本摘要、问答、信息提取、主题建模以及情感挖掘等任务。传统基于语法分析的自然语言处理技术发展较为缓慢,突破性成果较少。随着深度学习等技术的创新,人工智能在NLP领域得到了广泛的关注。由于自然语言描述中存在同义、近义词,一词多义等情况,加大了自然语言分析的难度,因而自然语言处理中比较关键的问题是实体消歧,实体消歧的主要目的是识别语句中存在多义性的实体名称,并对每一个多义实体名称给出符合其语境的语义。常见的实体消歧方法要求预先存在信息丰富的知识库,在大规模数据源上性能表现差,在互联网数据源上实体消歧的精度低。
发明内容
本发明实施例提供一种实体消歧方法、装置、计算机装置及计算机存储介质,旨在解决现有技术中方法要求预先存在信息丰富的知识库,在大规模数据源上性能表现差,在互联网数据源上实体消歧的精度低的问题。
本发明是这样实现的,一种实体消歧方法,包括以下过程:
构建待消歧实体的基因,所述基因包括:共现实体词基因及实体属性基因,所述共现实体词基因包括共现实体词及共现程度,所述实体属性基因包括所述待消歧实体的属性;
根据所述待消歧实体的语义特征从实体库中确定候选实体,其中,所述待消歧实体的语义特征包括名字形式相似性、简称信息及指代特点;
计算所述候选实体与所述待消歧实体的基因匹配度,在所述基因匹配度超过预设阈值的情况下,确定所述候选实体与所述待消歧实体的基因相匹配。
进一步地,所述计算所述候选实体与所述待消歧实体的基因匹配度,包括以下过程:
获取所述候选实体与所述待消歧实体的共现实体基因匹配度;
获取所述候选实体与所述待消歧实体的属性基因匹配度;
根据所述共现实体基因匹配度和属性基因匹配度,计算所述候选实体与待消歧实体的基因匹配度,计算公式为:
scoreg(m,e)=α*scorew(m,e)+β*scorep(m,e)
其中,scoreg(m,e)为基因匹配度,scorew(m,e)为所述共现实体基因匹配度,scorep(m,e)为所述属性基因匹配度,α、β为权重。
进一步地,所述获取所述候选实体与所述待消歧实体的共现实体基因匹配度,包括以下过程:
从预先存储的文档中确定所述待消歧实体的共现实体词,并从所述预先存储的文档中确定所述候选实体的共现实体词;
获取所述候选实体的基因实体词集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811508089.7/2.html,转载请声明来源钻瓜专利网。