[发明专利]一种改进的面向领域的命名实体消歧方法在审
申请号: | 201710492195.X | 申请日: | 2017-06-26 |
公开(公告)号: | CN107316062A | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 赵翔;曾维新;唐九阳;殷风景;廖劲智;冯滔 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京中济纬天专利代理有限公司11429 | 代理人: | 陆薇薇 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 面向 领域 命名 实体 方法 | ||
1.一种改进的面向领域的命名实体消歧方法,其特征在于,该方法包括以下步骤:
1)利用预处理模块对输入文本进行预处理得到实体指称集合以及相应的候选实体集合;
2)利用特征选取模块对实体指称集合以及相应的候选实体集合进行多方面特征提取,并构建指称-实体依赖图;
3)利用近似算法,分两阶段对文本中所有实体指称及候选实体进行命名实体消歧,得到消歧结果。
2.如权利要求1所述的一种改进的面向领域的命名实体消歧方法,其特征在于,所述多方面特征包括实体流行度特征、实体指称-候选实体相似度特征、上下文信息相似度特征、实体指称间特征以及实体-领域相关度特征。
3.如权利要求1所述的一种改进的面向领域的命名实体消歧方法,其特征在于,所述指称-实体依赖图包括实体指称节点、候选实体节点、指称-实体边、指称-指称边、以及实体-实体边,上述指称-实体边、指称-指称边、以及实体-实体边分别表示指称-实体间的联系、指称-指称联系以及实体-实体间的联系。
4.如权利要求1所述的一种改进的面向领域的命名实体消歧方法,其特征在于,所述步骤3)具体包括:
3.1)输入文本所有实体指称及候选实体;
3.2)根据实体指称对应候选实体个数是否小于衡量值,选出简单实体指称;
3.3)运用近似算法对该实体指称进行集体消歧;
3.4)将文本的领域设置为步骤3.3)消歧得到的正确实体所属的领域;
3.5)对剩下的实体指称,即非简单实体指称,利用领域特征,重新计算相似度值以及权重,使用近似算法进行消歧得到最后的结果。
5.如权利要求1所述的一种改进的面向领域的命名实体消歧方法,其特征在于,所述近似算法具体包括以下步骤:
S1)输入指称-实体依赖图;
S2)对每个实体指称m,计算其与候选实体ei的指称-实体相似度值,保留指称-实体相似度值最大的五个候选实体;
S3)对每个对应于实体指称m的候选实体ei,计算节点度数;
S4)移除指称-实体依赖图中节点度数最小的候选实体,更新节点度数;
其中,当节点度数最小的候选实体是某实体指称对应的最后的候选实体时,跳过该候选实体;
S5)当图中所有的候选实体均为其对应实体指称的最后一个候选实体时,终止移除过程,输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710492195.X/1.html,转载请声明来源钻瓜专利网。