[发明专利]一种基于词典和机器学习的地址匹配方法在审
申请号: | 201711332274.0 | 申请日: | 2017-12-13 |
公开(公告)号: | CN108052609A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 金勇;李元 | 申请(专利权)人: | 武汉烽火普天信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词典 机器 学习 地址 匹配 方法 | ||
本发明公开了一种基于词典和机器学习的地址匹配方法,包括地址解析模块、地址标准化模块、地址匹配模块和地址筛选模块,所述地址解析模块用于将输入的地址信息进行地址解析,解析后的地址数据输入到地址标准化模块经过标准化处理,处理后的地址信息输入到地址匹配模块中进行匹配,匹配到的地址信息利用地址筛选模块的处理得到最终的标准地址信息;本发明涉及信息技术领域;与现有的其他基于地址词典切分的模糊匹配相比,本发明采用的模糊地址词典匹配的方法更加灵活,不需要累积地址元词典,避免过多的人力去维护地址词典的同时也有效的避免了因为地址信息变动而地址词典更新不及时所造成的匹配率下降的问题。
技术领域
本发明涉及信息技术领域,具体为一种基于词典和机器学习的地址匹配方法。
背景技术
在公安行业中的海量文本挖掘过程中,经常需要找到案件信息中的地址所在地图的位置以及地址之间的距离,以提高案发地址的可视性和计算关联性。这就需要在已知地址的情况下,通过与标准地址库对比找到其标准地址和对应的经纬度,而后通过经纬度映射到地图上并且计算出两个地址之间的距离。但是在实际的项目应用中,标准地址库一般存有百万乃至千万级以上的标准地址信息,如果对输入的地址信息不加处理直接进行匹配操作,既会造成巨大的时间代价又会使得的匹配的准确率不高。
所以在大数据背景下,一种快速有效的地址匹配方法将会推动人工智能在自然语言领域的行业应用。
发明内容
本发明所要解决的主要问题是提供一种基于词典和机器学习的地址匹配方法,从标准地址数据库中快速的匹配出准确或者最接近的地址信息,从而提取出该地址对应的经纬度。
技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于词典和机器学习的地址匹配方法,包括地址解析模块、地址标准化模块、地址匹配模块和地址筛选模块,所述地址解析模块用于将输入的地址信息进行地址解析,解析后的地址数据输入到地址标准化模块经过标准化处理,处理后的地址信息输入到地址匹配模块中进行匹配,匹配到的地址信息利用地址筛选模块的处理得到最终的标准地址信息。
作为本发明的进一步优选方案,在地址解析模块中,利用地址词典对输入的地址信息按照区县、乡镇、村组、居委会、小区、楼幢依次进行解析。
作为本发明的进一步优选方案,在地址标准化模块中,通过对解析出的地址信息进行标准化填充和纠错处理,然后将处理之后的地址信息输入到地址匹配模块中。
作为本发明的进一步优选方案,在地址匹配模块中,对标准化处理之后的地址信息,通过递减查询标准地址数据库的方式,找出接近的多条地址数据信息,将找到的地址信息数据传入到地址筛选模块中。
作为本发明的进一步优选方案,在地址筛选模块中,对查询到地址信息数据,首先利用最小编辑距离的方法找出编辑距离最小的地址,如果有多个最小编辑距离,则利用余弦定理对这些最小编辑距离的地址计算其余弦距离,返回最大余弦距离的地址。
有益效果
本发明的主要特点:
1、由于加入地址标准化处理过程使得地址的匹配准确率大大提高。
2、采用模糊匹配算法使得地址匹配速度更快。
3、利用最小编辑距离和余弦相似性,筛选出准确且唯一的标准地址。
本发明与现有技术相比具有如下优点和有益效果:
首先,与现有的其他基于地址词典切分的模糊匹配相比,本发明采用的递减式模糊匹配算法,具有速度快、准确率高的优点,同时由于加入了地址筛选模块的处理,使得筛选出的地址信息更加精确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司,未经武汉烽火普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711332274.0/2.html,转载请声明来源钻瓜专利网。