[发明专利]一种地址纠错方法及终端有效
申请号: | 201880000142.4 | 申请日: | 2018-03-02 |
公开(公告)号: | CN108369582B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 李林贵;吴卫东;周涛 | 申请(专利权)人: | 福建联迪商用设备有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06F40/226 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 林志峥 |
地址: | 350000 福建省福州市鼓*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 纠错 方法 终端 | ||
本发明涉及数据处理领域,尤其涉及一种地址纠错方法及终端。本发明通过获取待纠错地址;根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址,得到候选地址集合。实现减少地址纠错过程中所占用的空间。
技术领域
本发明涉及数据处理领域,尤其涉及一种地址纠错方法及终端。
背景技术
通过OCR技术识别到地址信息后处理的方法主要有构建词表法、统计语言模型、语法树、相似字、距离信息等。比较常用的是构建词表法和统计语言模型。
统计语言模型是用概率统计得到相近的字与字或者词与词之间的关系,根据出现这种关系的概率得出最有可能的结果,常用的有马尔可夫模型。比如给定一个地址为“湖x省长沙市”,根据地址的统计概率,“湖”字后为“南”的条件概率为N1,为“北”的条件概率为M1;“南”字后为“省”的条件概率为N2,“北”字后为“省”的条件概率为M2,则为“湖南省”的概率是N1*N2,为“湖北省”的概率是M1*M2,再根据“省”字后面的“长”字可以得出为“湖南省”的概率大于“湖北省”,得出地址为“湖南省长沙市”。根据地址的特性,一条地址数据通常可以分为多个词语,词语之间的联系要大于字与字之间的联系,因此基于词的统计语言模型更适用于地址纠错。利用基于词的统计语言模型进行地址纠错的方案,一般先通过收集地址数据,构建一个地址数据库训练语言模型,得到不同地址名之间出现的条件概率,作为参数保存;然后根据某种分词规则将地址分为多个词语;最后采用搜索算法求出语言模型的最优解,也就是出现概率最大的地址。
但是,基于词的统计语言模型的缺点是需要计算词语出现的概率,利用搜索算法得出最后的地址。训练统计语言模型时,参数空间庞大,需要规模巨大的语料库,如果语料库数据不足,容易出现条件概率为0的情况,导致模型效果变差。地址中存在近似的地名,根据统计概率可能无法区分,如果增加马尔可夫模型的阶数,参数空间会急剧增大。
构建词表法是用某种数据结构来保存分类后的词语,根据词表进行查询,得到可能的词语来纠正当前错误的词语。数据结构可以线性结构或者是树状结构,一般来说,线性结构的时间和空间效率比较低,常用的是树状结构,比如应用在搜索引擎中的字典树。字典树是以具有相同前缀的词语共用根节点构建的,比如add、and、andy存为树状结构如图1所示。将数据保存为字典树能够共用节点、减少冗余。但是由于汉字种类过多,每个节点存放一个汉字以及指针,形成的字典树非常大,会占用很多空间。查询时,从根节点向下,进入不同的分支,最后将进入过的所有节点连接,得出地址。
但是,字典树的缺点是构建地址数据的字典树太庞大,占用空间过多。
发明内容
本发明所要解决的技术问题是:如何减少地址纠错过程中所占用的空间。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种地址纠错方法,包括:
S1、获取待纠错地址;
S2、根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;
S3、获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;
S4、根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;
S5、获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建联迪商用设备有限公司,未经福建联迪商用设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880000142.4/2.html,转载请声明来源钻瓜专利网。