[发明专利]地名地址识别方法在审
申请号: | 201510971470.7 | 申请日: | 2015-12-21 |
公开(公告)号: | CN105630765A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 梁丰;王遵义;翁时锋 | 申请(专利权)人: | 浙江万里学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海唯源专利代理有限公司 31229 | 代理人: | 曾耀先 |
地址: | 315199*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地名 地址 识别 方法 | ||
技术领域
本发明涉及计算机领域,特别涉及一种地名地址识别方法。
背景技术
在汉语中,词是最小的能够独立活动的有意义的语言单位。中文分词是按照特定 的规范将汉语中连续的字序列切分为合理的词序列的过程,它是中文信息处理的基础。常 用的分词算法有机械分词法和统计分词法。按照匹配方向前者又分为正向最大匹配法、逆 向最大匹配法和双向最大匹配法。以上算法从不同侧面(解决未登录词、歧义分析和分词效 率)优化了中文分词算法。
地名地址分词是中文分词在地名地址中的应用。它是将地名地址串拆分成若干地 理要素的过程。地名地址分词广泛应用于信息检索、中文地理编码和地址信息识别等多方 面。一个地名地址分词算法好不好,关键看该算法对词典未登录词的识别能力。由于我国地 址名称多,词典无法覆盖全国地址名称,因此算法对未登录地址名称的识别能力成为分词 算法的瓶颈,解决算法对未登录地址名称的识别问题成为分词的首要问题。
发明内容
本发明实施例的目的是提供一种地名地址识别方法,以解决现有的地址识别方法 识别能力低的问题。
本发明实施例提出一种地名地址识别方法,包括:
设置一地名词典库以及一地址要素库,所述地名词典库中存储多个地名,所述地 址要素库存储多个地址要素;
根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串;
将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配;
将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对;
将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。
依照本发明较佳实施例所述的地名地址识别方法,
所述地名地址识别方法还包括:设置一特殊符号词典库,所述特殊符号词典库中 存储多个特殊符号;
所述根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串的步骤 之前包括:将待识别的未登录地址与所述特殊符号词典库进行匹配,去除待识别的未登录 地址中的特殊符号。
依照本发明较佳实施例所述的地名地址识别方法,所述根据预设的切分长度对待 识别的未登录地址进行切分,获取匹配子串的步骤中,采用正向最大匹配法对待识别的未 登录地址进行分词。
依照本发明较佳实施例所述的地名地址识别方法,所述地名词典库中包括词典正 文、词索引表以及首字散列表。
依照本发明较佳实施例所述的地名地址识别方法,所述词典正文包括常用汉语词 条、数字词条和地名地址词条。
依照本发明较佳实施例所述的地名地址识别方法,所述将切分获得的所述匹配子 串与所述地名词典库中的地名进行匹配的步骤之后包括:
判断匹配子串长度是否大于两个字的字符长度,若否,则将匹配子串的终止位减 去一个字的字符长度,并返回前一步骤与所述地名词典库中的地名进行匹配。
依照本发明较佳实施例所述的地名地址识别方法,所述判断匹配子串长度是否大 于两个字的字符长度的步骤之后包括:若匹配子串长度大于两个字的字符长度,则将匹配 子串切分单个字。
依照本发明较佳实施例所述的地名地址识别方法,所述将匹配成功的匹配子串与 所述地址要素库中的地址要素进行比对的步骤包括:
判断匹配子串是否以地址要素结束词为结尾;
若判断匹配子串是以地址要素结束词为结尾,则判断匹配子串是否等于地址要素 结束词;
若匹配子串不是等于地址要素结束词,则将当下匹配子串确认为地名地址。
依照本发明较佳实施例所述的地名地址识别方法,所述判断匹配子串是否等于地 址要素结束词的步骤之后包括:
若匹配子串不是等于地址要素结束词,则判断当下匹配子串是否为地名地址串的 第一个词,若是,则将当下匹配子串确认为地名地址。
依照本发明较佳实施例所述的地名地址识别方法,将比对结果中存在一致地址要 素的匹配子串确定为识别出的地名地址的步骤包括:将比对结果中的匹配子串中非完整的 地址要素词进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江万里学院,未经浙江万里学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510971470.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语句处理方法及装置
- 下一篇:一种数据编辑方法及装置