[发明专利]对地理地址进行标准化的方法和装置在审
申请号: | 201710661302.7 | 申请日: | 2017-08-04 |
公开(公告)号: | CN110019575A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 梅尚健;罗尚勇;游正朋 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F17/27;G06Q30/02;G06Q30/06 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地理地址 相似度 标准地址 标准化地址 方法和装置 标准化 计算机技术领域 处理效率 预定义 查找 | ||
本发明公开了一种对地理地址进行标准化的方法和装置,涉及计算机技术领域。该方法的具体实施方式包括:接收一待处理地理地址;在预定义的标准化地址库中查找与该待处理地理地址相似度最高的标准地址作为第一标准地址,相应的相似度作为第一相似度,当所述第一相似度大于预定的第一阈值,则确定该第一标准地址是所述待处理地理地址的标准化地址。该实施方式具有较高的准确性和处理效率,且适用性广。
技术领域
本发明涉及计算机技术领域,尤其涉及一种对地理地址进行标准化的方法和装置。
背景技术
对用户的地理地址进行统计、分析和挖掘,可以获得诸多具有较高的商业价值的数据信息。由于用户的地理地址信息往往是用户自己输入详细地址,而每个人对同一地址的理解可能不同,因此对于相同的地址,用户输入的内容往往不是统一的,其格式也是千差万别,并且有些人为了避免被风控规则拦截,会人为的在填写的详细地址中加入噪音,从而导致相同地址可能会存在非常多形式的地址串,为地址的识别带了诸多困难,使得后续做地址维度的分析以及设计地址维度的指标的难度增加。
因此,在获取并识别用户的地理地址的过程中,需要对用户输入的地理地址进行标准化,将用户输入的地理地址转换为定义的标准形式。目前,对地理地址进行标准化是通过基于规则的方法来进行的,该方法基于地址层级规则,将地址分级划分为省、市、区、街道、城、栋、单元,然后分词获得最终的标准化结果。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术的标准化方法适用性、准确性和处理效率较低,对于地理地址中存在的一些异常情况,使用现有技术的标准化方法,则需要为每一种异常情况都额外添加特殊规则才能标准化地址,这往往需要很多的人工介入操作及规则设置,造成极大的资源浪费。
发明内容
有鉴于此,本发明实施例提供一种对地理地址进行标准化的方法和装置,具有较高的准确性和处理效率,且适用性广。
为实现上述目的,根据本发明实施例的一个方面,提供了一种对地理地址进行标准化的方法,包括:
接收一待处理地理地址;
在预定义的标准化地址库中查找与该待处理地理地址相似度最高的标准地址作为第一标准地址,相应的相似度作为第一相似度,当所述第一相似度大于预定的第一阈值,则确定该第一标准地址是所述待处理地理地址的标准化地址。
本发明实施例提供的对地理地址进行标准化的方法,还包括:
当所述第一相似度不大于预定的第一阈值,则生成所述待处理地理地址的地址向量;
在所述标准化地址库对应的标准地址向量库中查找与所述待处理地理地址相似度最高的标准地址向量,相应的相似度作为第二相似度,当所述第二相似度大于预定的第二阈值,则确定所查找的标准地址向量对应的第二标准地址是所述地理地址的标准化地址。
本发明实施例提供的对地理地址进行标准化的方法,还包括:
当所述第二相似度不大于所述第二阈值,且所述第一相似度和所述第二相似度的加权平均值大于预定的第三阈值,则确定所述第一相似度和所述第二相似度中较大者对应的标准地址是所述待处理地理地址的标准化地址。
进一步的,标准化地址库通过下述步骤获得:
接收样本地理地址集;
对样本地理地址集进行预处理;
基于地址词典读取所述地理地址集中的地理地址的地址键码及相应层级,并基于地址键码的层级去除其中不符合层级要求的地址键码,获得该地理地址的由所述地址键码分隔的层级标准化地址,从而得到由所述层级标准化地址组成的标准化地址库。
进一步的,生成所述待处理地理地址的地址向量包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710661302.7/2.html,转载请声明来源钻瓜专利网。