[发明专利]地址归一化处理方法及装置在审
申请号: | 202011397609.9 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112487122A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 王乐斐;梁相军 | 申请(专利权)人: | 电信科学技术第十研究所有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/21 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭永丽 |
地址: | 710061*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 归一化 处理 方法 装置 | ||
本发明一种地址归一化处理方法及装置,该方法包括:获取多种地址数据源,地址数据源包括多个与目标地址对应的原始地址;对各地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;对各初步治理后的原始地址进行网络爬取,得到与初步治理后的原始地址对应的网爬经纬度;根据网爬经纬度,对各初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。本发明基于多数据源经纬度精确匹配并使用地址权重归一化的方式来统一地址信息,有效解决了现有技术中对地址进行归一化分析的方法存在的处理效率低且准确性不高的问题,提升应用系统对地址信息的使用能力。
技术领域
本发明涉及数据处理技术领域,具体涉及一种地址归一化处理方法及装置。
背景技术
在实际使用中,一些约定俗成的称谓能够准确地标识一个地址,而一个地址也会同时具有多种称谓,如简称、俗称、新旧称谓、前后顺序不一致、以地标物作为地址等。这些情况会使一个地址信息存在多种称谓,甚至在不同的应用中呈现出不同形态,而这些情况会在分析一个地址信息时带来较大干扰,因此通过地址归一化分析来统一地址信息,能够提升地址分析时的应用能力。
目前,应用较为广泛的分析算法主要有基于规则的匹配方法或基于统计的方法等。其中,基于规则匹配的方法是从地址信息中提取各种地址元素,如省、市、街道等信息,然后与相应规则的地理信息匹配,从而获得准确的且机器可以识别的地址。然而,当规则知识的获取越来越多时,将会给带来处理瓶颈,处理效率低。而基于统计的方法,不需要广博的语言学知识,通过相应的模型计算出与目标地址概率最大且符合度最高的地址,从而实现地址归一化分析,这种分析方法对具体的语言特性依赖相对较少,可移植性比较好,主要有HMM、ME、决策树、基于转换学习以及马尔可夫模型等模型。然而,当新的地址、地名或者地名变更等出现时,该方法的准确性将大打折扣。
需要注意的是,本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
发明内容
本发明实施例提供一种地址归一化处理方法及装置,以至少解决现有技术中对地址进行归一化分析的方法存在的处理效率低,且准确性不高的问题。
第一方面,本发明实施例提供一种地址归一化处理方法,包括:
获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
作为本发明第一方面的优选方式,所述地址数据源包括运单地址数据源、网络地址数据源以及社会资源地址数据源;
所述运单地址数据源包括多个与目标地址对应的运单原始地址,所述网络地址数据源包括多个与目标地址对应的网络原始地址,所述社会资源地址数据源包括多个与目标地址对应的社会资源原始地址。
作为本发明第一方面的优选方式,若所述地址数据源为运单地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述运单地址数据源中每个运单原始地址进行字段抽取,得到与所述运单原始地址对应的运单省字段、运单市字段和运单详细地址字段;
依次对所述运单省字段和所述运单市字段的合法性和正确性进行验证,并在通过验证后对所述运单详细地址字段中包含的特殊字符进行处理,得到初步治理后的运单原始地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电信科学技术第十研究所有限公司,未经电信科学技术第十研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011397609.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阿胶酸奶的制作方法
- 下一篇:摄像头模组及电子设备