[发明专利]一种地址纠错方法及系统在审
申请号: | 202011271106.7 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112364113A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 陈奇宁 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F40/232;G06F40/242;G06F40/284;G06F40/289;G06F16/335;G06F16/31 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 纠错 方法 系统 | ||
1.一种地址纠错方法,其特征在于,包括:
数据获取步骤,用于获取待纠错地址;
行政区划地址纠错步骤,用于根据一地名词典对所述地址数据进行分词后,根据一地址树识别行政区划前三层级地名中的错误地名,并通过全文检索及相似度对比对所述前三层级地名中的错误地名进行纠错;
详细地址纠错步骤,用于根据一地址标准化切分模型对经所述行政区划地址纠错步骤后的所述地址数据进行地名切分后,根据一详细地址索引识别所述详细地址中的错误地名并通过全文检索及相似度对比纠错。
2.根据权利要求1所述的地名纠错方法,其特征在于,还包括一地址数据库建立步骤,用于预先采集地址数据并建立地址数据库,所述地址数据库至少包括:所述地名词典、所述地址树、地址索引及所述详细地址索引其一或其任意组合。
3.根据权利要求2所述的地址纠错方法,其特征在于,所述行政区划地址纠错步骤进一步包括:
行政区划地址分词步骤,用于根据所述地名词典对所述地址数据进行正向最大匹配分词,得到一分词列表;
分词位置识别步骤,用于基于所述地名词典将所述分词列表进行匹配,得到所述分词列表中前三层级地名;
错误地名识别步骤,用于基于所述地址树将对所述前三层级地名进行验证,识别得到所述前三层级地名中的错误地名;
前三层级地名纠错步骤,用于基于所述地址索引对所述前三层级地名中的错误地名通过全文检索及相似度比对获取所述地址索引中与所述前三层级地名中的错误地名相似度最高的地名作为正确地名进行纠错。
4.根据权利要求3所述的地址纠错方法,其特征在于,所述详细地址纠错步骤进一步包括:
详细地址切分步骤,用于基于一地址标准化切分模型对经所述前三层级地名纠错步骤后的所述地址数据进行地名切分,得到切分结果;
详细地址校验步骤,用于基于所述详细地址索引对所述切分结果进行地名校验,得到所述详细地址中的错误地名;
详细地址地名纠错步骤,用于基于所述详细地址索引对所述详细地址中的错误地名进行全文检索及相似度对比,得到所述详细地址索引中与所述详细地址中的错误地名相似度最高的地名作为正确地名进行纠错。
5.根据权利要求1所述的地名纠错方法,其特征在于,所述地址数据库建立步骤进一步包括:
地名词典获取步骤,用于获取行政区划每一层级的地名并建立所述地名词典;
地址树获取步骤,用于将所述地名根据其层级后缀进行地名扩充并建立各层级地名之间的从属关系,得到所述地址树;
地址索引构建步骤,用于将所述行政区划中前三层级的地名的后缀简化得到简化地名,并将所述简化地名与所述前三层级的地名建立全文索引,得到所述地址索引;
详细地址索引构建步骤,用于将所述行政区划中详细地址地名建立全文索引,得到所述详细地址索引。
6.一种地址纠错系统,其特征在于,包括:
数据获取模块,用于获取待纠错地址;
行政区划地址纠错模块,用于根据一地名词典对所述地址数据进行分词后,根据一地址树识别行政区划前三层级地名中的错误地名,并通过全文检索及相似度对比对所述前三层级地名中的错误地名进行纠错;
详细地址纠错模块,用于根据一地址标准化切分模型对经所述行政区划地址纠错模块得到的所述地址数据进行地名切分后,根据一详细地址索引识别所述详细地址中的错误地名并通过全文检索及相似度对比纠错。
7.根据权利要求6所述的地址纠错系统,其特征在于,还包括一地址数据库建立模块,用于预先采集地址数据并建立地址数据库,所述地址数据库至少包括:所述地名词典、所述地址树、地址索引及所述详细地址索引其一或其任意组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011271106.7/1.html,转载请声明来源钻瓜专利网。