[发明专利]基于关键词提取的实体名消岐方法有效
申请号: | 201910859136.0 | 申请日: | 2019-09-11 |
公开(公告)号: | CN110705295B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 吴俊杰;部慧;陈禹州;李晔林;罗炎林 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F40/242;G06K9/62 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 史霞 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键词 提取 实体 名消岐 方法 | ||
本发明公开了一种基于关键词提取的实体名消岐方法,包括:文本预处理及负面词过滤阶段,词性标注及分析阶段,关键词提取组合对比三个阶段,目的是从零散且异质化严重的互联网文本中找到与实体相关且实体在文本中占有重要地位的目标文本;采用提取文本中的关键词与实体名进行组合判断是否为相关文本,在实际中可以有效的解决多个实体名出现在同一文本中时的匹配问题;本发明将多阶段处理步骤融合,极大地提升了用实体名称匹配文本的准确性。
技术领域
本发明涉及自然语言处理领域。更具体地说,本发明涉及一种基于关键词提取的实体名消岐方法。
背景技术
命名实体消歧是自然语言处理技术的一项基础性研究,在语义标注、在线推荐系统、互联网搜索引擎等应用中具有重要的实用价值,因此对命名实体消歧方法研究具有重要意义。
命名实体歧义是指对于给定的命名实体指称具有多个含义。一个命名实体指向多个实体时,根据背景文本为其选择正确的语义实体就是命名实体消歧的主要内容。导致命名实体歧义主要包括命名实体的多样性和歧义性两方面原因。实体指称多样性指一个命名实体有多种表达方式,包括同义词和简称等情况;实体指称歧义性指一个命名实体可能表示不同的实体语义。
消歧的工作就是为一个命名实体在多个语义下选择一个正确的语义实体。基于上下文实体信息在指称多样性和指称歧义性两方面进行消歧。
现有的消岐技术有针对性略缩词的也有针对实体多音字的,但是将原始文本进行处理得到初步实体名然后和关键词进行相似性计算来消岐的案例基本没有。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于关键词提取的实体名消岐方法,其鲁棒性较强,能够适应不同长度、不同格式的文本,在多个信息来源下均有比较好的表现;具有较强的可解释性,各个步骤的结果可见。而且可以对负面词典进行管理以进行针对不同领域的精细化处理;具有更高的精确性,考虑负面词及词的词性信息,并且通过关键词对比的方法确保所识别的实体在文本的表达中占据主要地位。
为了实现根据本发明的这些目的和其它优点,提供了一种基于关键词提取的实体名消岐方法,包括:
准备步骤、以固有监测实体名单中的实体名为基准,从互联网上利用爬虫程序爬取带有实体名或者与实体名相关的未消岐的信息文本作为原始文本;
步骤二、根据负面词词典将步骤一得到文本向量进行分词过滤,得到分词过滤后的语句;
步骤三、通过HMM隐马尔科夫模型对步骤二得到的语句中的每个词进行词性标注,得到原始文本的初步实体名;
步骤四、提取步骤三得到的词性标注后的语句的关键词;
步骤五、计算步骤三得到的实体名与关键词之间的相似性;
步骤六、根据步骤五得到的相似性结果得到原始文本与实体的消岐识别结果。
优选的是,步骤一中,中文停用词表通过网络上的开源网站获得。
优选的是,步骤二中,负面词词典包括:否定词、实体名所在领域的负面性名词与实体名所在领域的负面性动词。
优选的是,步骤四中,关键词的提取采用text-rank、TF-IDF、SKE、word2vec+Kmeans或基于LDA的关键词提取方法中的一种进行。
优选的是,HMM隐马尔科夫模型进行词性标注的具体过程为:
将步骤二得到的语句作为观测序列,经过HMM隐马尔科夫模型进行词性标注后的序列为观测序列;
观测序列到隐藏序列是通过viterbi算法,利用语料统计得到的起始概率、发射概率和转移概率来得到的,得到隐藏序列后即完成了词性标注过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910859136.0/2.html,转载请声明来源钻瓜专利网。