[发明专利]一种地名识别方法有效
申请号: | 201810984200.3 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109299456B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 龙华;吴睿;熊新;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地名 识别 方法 | ||
1.一种地名识别方法,其特征在于:
①建立行政区划数据库和常见地名数据库;
②对大量含有地名的语料进行统计分析,得到基于统计的地名识别模型;
③对待识别的字符串利用基础数据库进行首次地名识别;
④利用基于规则的方法进行二次地名识别;
⑤利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果;
⑥通过人工筛选得到地名识别的最终结果;
步骤③所述的首次地名识别的具体实现为:将待识别的字符串匹配所述行政区划数据库和常见地名数据库,判断待识别的字符串是否包含行政区划数据库和常见地名数据库中的地名,若包含,则提取出地名,再进行步骤④所述的基于规则的二次地名识别;若不包含,则直接进行二次地名识别;
所述的基于规则的二次地名识别的具体实现为:首先统计出地名最后一个字出现概率大的字,作为地名特征字,再统计出地名前一个字出现概率大的字或词,作为地名指示词,然后判断待识别的字符串中是否含有地名特征字,若含有,则提取出地名特征字前六个字作为疑似地名等待下一步处理,若不含有,则进行步骤⑤所述的利用统计好的地名识别模型进行第三次地名识别;
所述的下一步处理的具体实现为:判断这六个字中是否存在地名用字概率大的字,若不存在,则视为没有地名,若存在,则继续判断这六个字中是否存在地名指示词且指示词不为最后一个字,若存在,则将指示词后面的部分作为地名,若不存在,则视为没有地名;
所述的利用统计好的地名识别模型进行第三次地名识别的具体实现为:将待识别的字符串作为输入,添加已经提取好的特征,利用统计模型实现地名自动识别;
步骤②所述的基于统计的地名识别模型要提取的特征有:地名用字概率以及地名前后字或词的词性特征。
2.根据权利要求1所述的地名识别方法,其特征在于:所述的地名用字概率通过训练地名语料库后统计得到,具体实现为:将地名语料库中的地名按字切分,得到一个由字组成的集合A,再统计每个字出现的频率,即为概率,最后按照频率的大小进行排序,取前m个为地名用字概率大的字,作为后续地名识别的依据,所述地名用字概率的计算公式为:
其中,pi为第i个字出现的概率,n为集合A中的字的总个数,wi为地名语料库中第i个字出现的次数;门限m通过大量实验后得到。
3.根据权利要求1所述的地名识别方法,其特征在于:提取所述的地名前后字或词的词性特征的具体实现为:首先对地名前后字或词进行词性标注,再分别计算地名前面的词的词性出现的概率p(q)、地名后面的词的词性出现的概率p(h)以及地名前后的词的词性出现的条件概率p(q|h), p(q)、p(h)、p(q|h)可利用每个词性出现的频率表示,计算公式为:
其中,z为词性的总个数,q、h分别为地名前、后词性出现的次数,p(h|q)为在前一个词性确定的情况下前一个词性出现的概率,可通过训练样本用最大似然法得到。
4.根据权利要求1所述的地名识别方法,其特征在于:步骤⑥所述的人工筛选的具体实现为:在得到候选的地名后,通过人工进行最后的判定,若地名中存在不符合地名用字习惯的字眼,则过滤掉不作为地名,否则作为最终的地名识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810984200.3/1.html,转载请声明来源钻瓜专利网。