[发明专利]一种地址模糊匹配方法、系统及计算机设备有效
申请号: | 202010400129.7 | 申请日: | 2020-05-13 |
公开(公告)号: | CN111291099B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 马志豪;黄文辉;廖健;祝大裕;韩柳 | 申请(专利权)人: | 中邮消费金融有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 广州微斗专利代理有限公司 44390 | 代理人: | 唐立平 |
地址: | 511458 广东省广州市南沙区海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 模糊 匹配 方法 系统 计算机 设备 | ||
1.一种地址模糊匹配方法,其特征在于,包括如下步骤:
S1、获取待匹配的地址数据集,并对所述地址数据集进行预处理;
S2、结合行政区划分将所述地址数据集分为多组地址数据子集;
S3、对第一组所述地址数据子集进行K-means聚类匹配得到多个地址簇;
S4、结合多个地址簇得到候选地址集,判断当前候选地址集是否为空,如果为空,则对下一组地址数据子集进行K-means聚类匹配得到多个地址簇,然后转S5,如果不为空,则将下一组地址数据子集与所述候选地址集进行两两匹配,将下一组地址数据子集中各地址数据归入相应的地址簇中,得到更新后的地址簇,然后转S5;
S5、对连续两组地址数据子集的匹配结果进行合并,判断是否所有地址数据子集均匹配完毕,如果是,则输出多个地址簇,得到地址匹配结果,如果否,则转S4。
2.根据权利要求1所述的地址模糊匹配方法,其特征在于,结合行政区划分将所述地址数据集中地址数据分为多组地址数据子集,具体为:
对所述地址数据集中地址数据进行各级行政区的标准化补全;
针对不同区域设定不同的地址描述规则,按所述地址描述规则对标准化补全后的地址数据进行地址切割,得到多个层级的地址要素;
按各级行政区对应的地址要素对所述地址数据集中地址数据进行分组,得到多组所述地址数据子集。
3.根据权利要求2所述的地址模糊匹配方法,其特征在于,对所述地址数据集中地址数据进行各级行政区的标准化补全,具体为:按从高到低的顺序对所述地址数据中各级行政区进行标准化补全;
按从高到低的顺序对所述地址数据中各级行政区进行标准化补全,具体为:
判断待标准化的当前级行政区是否为最高级行政区,如果是,则将行政区层级库中所有最高级行政区作为候选行政区,并转下一步,如果不是,则进一步判断前级行政区标准化补全后的结果是否均为空,如果均为空,则将行政区层级库中所有当前级行政区作为候选行政区,并转下一步,如果不均为空,则将与当前级行政区距离最近且补全结果不为空的前级行政区作为参考行政区,则根据行政区层级库将所述参考行政区所包含的所有当前级行政区作为候选行政区,并转下一步;
则每一所述候选行政区分别与所述地址数据中当前级行政区进行匹配,如果匹配成功,则按匹配结果对所述地址数据中当前级行政区进行补全,如果匹配失败,则去除所述地址数据中的当前级行政区通词,然后进行二次匹配,如果二次匹配成功,则按二次匹配结果对所述地址数据的当前级行政区进行补全,如果二次匹配仍然失败,则将所述地址数据的当前级行政区置为空;
如果所述地址数据的当前级行政区匹配成功,且前级行政区匹配失败,则以当前级行政区的匹配结果对应的前级行政区作为匹配结果对所述地址数据的前级行政区进行补全;
判断各级行政区是否均匹配完成,如果是,则输出标准化补全后的地址数据,如果否,则以下一级行政区更新当前级行政区,并转第一步。
4.根据权利要求1所述的地址模糊匹配方法,其特征在于,对所述地址数据子集进行K-means聚类匹配得到多个地址簇,具体为:
从所述地址数据子集中随机选取一个地址数据;
分别计算选定地址数据与所述地址数据子集其他地址数据的相似度,判断相似度值是否大于设定阈值,如果大于,则将相应地址数据与所述选定地址数据归于同一地址簇,并将相应地址数据从所述地址数据子集中删除,如果不大于,则仍然将相应地址数据保留于所述地址数据子集中;
判断所述地址数据子集是否为空,如果为空,则输出所有地址簇,如果不为空,则从所述地址数据子集中重新随机选取一个地址数据,并转上一步。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中邮消费金融有限公司,未经中邮消费金融有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010400129.7/1.html,转载请声明来源钻瓜专利网。