[发明专利]一种地名识别方法有效
申请号: | 201810984200.3 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109299456B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 龙华;吴睿;熊新;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地名 识别 方法 | ||
本发明涉及一种地名识别方法,属于信息技术领域。本发明首先建立行政区划数据库和常见地名数据库作为基础数据库;接着对大量含有地名的语料库进行统计分析,得到基于统计的地名识别模型;然后对待识别的字符串利用基础数据库进行首次地名识别;接着利用基于规则的方法进行二次地名识别;最后利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果。本发明通过将统计模型和规则识别进行结合,解决了传统的地名识别技术规则的可移植性差,对地名的识别存在歧义,从而使得地名识别结果准确率低的现象,以提高地名识别的准确性。
技术领域
本发明涉及一种地名识别方法,属于信息技术领域。
背景技术
命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务,而地名识别是命名实体识别的一个子问题,因此,对它的研究具有重要意义和价值。
一般地,地名语义复杂,地名的用字又具有很大的任意性,所以传统的地名识别技术不能有效地识别出新词;同时,由于地名数量众多、没有形态上的特征、规律各异等特点,所以传统的基于规则的地名识别技术由于可移植性差,会使得对地名的识别会变得不够准确,以上所述都会给地名识别造成困难。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种地名识别方法,将统计模型和规则识别进行结合,解决了传统的地名识别技术规则的可移植性差,对地名的识别存在歧义,从而使得地名识别结果准确率低的现象,以提高地名识别的准确性。
本发明的技术方案是:一种地名识别方法,首先建立行政区划数据库和常见地名数据库作为基础数据库;接着对大量含有地名的语料库进行统计分析,得到基于统计的地名识别模型;然后对待识别的字符串利用基础数据库进行首次地名识别;接着利用基于规则的方法进行二次地名识别;最后利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果。
具体步骤为:
①建立行政区划数据库和常见地名数据库。
②对大量含有地名的语料进行统计分析,得到基于统计的地名识别模型。
③对待识别的字符串利用基础数据库进行首次地名识别。
④利用基于规则的方法进行二次地名识别。
⑤利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果。
⑥通过人工筛选得到地名识别的最终结果。
进一步地,步骤②所述的基于统计的地名识别模型要提取的特征有:地名用字概率以及地名前后字或词的词性特征。
进一步地,所述的地名用字概率通过训练地名语料库后统计得到,具体实现为:将地名语料库中的地名按字切分,得到一个由字组成的集合A,再统计每个字出现的频率,即为概率,最后按照频率的大小进行排序,取前m个为地名用字概率大的字,作为后续地名识别的依据,所述地名用字概率的计算公式为:
其中,pi为第i个字出现的概率,n为集合A中的字的总个数,wi为地名语料库中第i个字出现的次数;所述的门限m通过大量实验后得到。
进一步地,提取所述的地名前后字或词的词性特征的具体实现为:首先对地名前后字或词进行词性标注,再分别计算地名前面的词的词性出现的概率p(q)、地名后面的词的词性出现的概率p(h)以及地名前后的词的词性出现的条件概率p(q|h),所述的p(q)、p(h)、p(q|h)可利用每个词性出现的频率表示,计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810984200.3/2.html,转载请声明来源钻瓜专利网。