[发明专利]一种地名识别方法有效

申请号：	201810984200.3	申请日：	2018-08-28
公开（公告）号：	CN109299456B	公开（公告）日：	2022-07-19
发明（设计）人：	龙华;吴睿;熊新;邵玉斌;杜庆治	申请（专利权）人：	昆明理工大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F16/33
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种地名识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种地名识别方法，属于信息技术领域。本发明首先建立行政区划数据库和常见地名数据库作为基础数据库；接着对大量含有地名的语料库进行统计分析，得到基于统计的地名识别模型；然后对待识别的字符串利用基础数据库进行首次地名识别；接着利用基于规则的方法进行二次地名识别；最后利用统计好的地名识别模型进行第三次地名识别，得到地名识别的最终结果。本发明通过将统计模型和规则识别进行结合，解决了传统的地名识别技术规则的可移植性差，对地名的识别存在歧义，从而使得地名识别结果准确率低的现象，以提高地名识别的准确性。

技术领域

本发明涉及一种地名识别方法，属于信息技术领域。

背景技术

命名实体识别是信息抽取的一项子任务，其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中，命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务，而地名识别是命名实体识别的一个子问题，因此，对它的研究具有重要意义和价值。

一般地，地名语义复杂，地名的用字又具有很大的任意性，所以传统的地名识别技术不能有效地识别出新词；同时，由于地名数量众多、没有形态上的特征、规律各异等特点，所以传统的基于规则的地名识别技术由于可移植性差，会使得对地名的识别会变得不够准确，以上所述都会给地名识别造成困难。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种地名识别方法，将统计模型和规则识别进行结合，解决了传统的地名识别技术规则的可移植性差，对地名的识别存在歧义，从而使得地名识别结果准确率低的现象，以提高地名识别的准确性。

本发明的技术方案是：一种地名识别方法，首先建立行政区划数据库和常见地名数据库作为基础数据库；接着对大量含有地名的语料库进行统计分析，得到基于统计的地名识别模型；然后对待识别的字符串利用基础数据库进行首次地名识别；接着利用基于规则的方法进行二次地名识别；最后利用统计好的地名识别模型进行第三次地名识别，得到地名识别的最终结果。

具体步骤为：

①建立行政区划数据库和常见地名数据库。

②对大量含有地名的语料进行统计分析，得到基于统计的地名识别模型。

③对待识别的字符串利用基础数据库进行首次地名识别。

④利用基于规则的方法进行二次地名识别。

⑤利用统计好的地名识别模型进行第三次地名识别，得到地名识别的最终结果。

⑥通过人工筛选得到地名识别的最终结果。

进一步地，步骤②所述的基于统计的地名识别模型要提取的特征有：地名用字概率以及地名前后字或词的词性特征。

进一步地，所述的地名用字概率通过训练地名语料库后统计得到，具体实现为：将地名语料库中的地名按字切分，得到一个由字组成的集合A，再统计每个字出现的频率，即为概率，最后按照频率的大小进行排序，取前m个为地名用字概率大的字，作为后续地名识别的依据，所述地名用字概率的计算公式为：

其中，pi为第i个字出现的概率，n为集合A中的字的总个数，w_i为地名语料库中第i个字出现的次数；所述的门限m通过大量实验后得到。

进一步地，提取所述的地名前后字或词的词性特征的具体实现为：首先对地名前后字或词进行词性标注，再分别计算地名前面的词的词性出现的概率p(q)、地名后面的词的词性出现的概率p(h)以及地名前后的词的词性出现的条件概率p(q|h)，所述的p(q)、p(h)、p(q|h)可利用每个词性出现的频率表示，计算公式为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810984200.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种汉语动名词超常搭配的计算机语言处理方法
下一篇：一种观点挖掘方法、装置及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种地名识别方法有效

专利文献下载