[发明专利]地址的标准化方法、装置、存储介质及处理器有效
申请号: | 201811083773.5 | 申请日: | 2018-09-17 |
公开(公告)号: | CN110909110B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 谢朋峻;郑华飞;刘楚;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 褚敏;宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 标准化 方法 装置 存储 介质 处理器 | ||
本发明公开了一种地址的标准化方法、装置、存储介质及处理器。其中,该方法包括:获取多个地址数据;将多个地址数据中的每个地址数据划分为多个地址要素;从多个地址要素中确定待索引地址要素,并从多个地址数据中获取包含待索引地址要素的地址数据;对包含待索引地址要素的地址数据中除待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。本发明解决了无法对同一地址的不同写法进行统一的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种地址的标准化方法、装置、存储介质及处理器。
背景技术
在很多行业中,需要使用不同来源的地址数据。但是地址的写法灵活多变,对同一个地址,往往存在成百上千种写法。比如“杭州阿里巴巴西溪园区”可以写成“杭州余杭文一西路969号”、“余杭区阿里巴巴西溪园区”、“杭州阿里巴巴淘宝城”等等。
不同写法的地址法,对依据地址进行业务的影响很大,例如公安希望统计每个地址的登记人口,由于地址写法不一样,就不能实现准确的统计。
要实现将不同写法的地址归一到同一个地址上,需要构建标准化的通讯地址库。
现有的标准通讯地址库的构建主要分为两种方式:
1.通过人工录入。就是通过人工录入的方式构建标准通讯地址库,例如公安部等进行的“一标三实”项目,也是通过民警上门登记,人工录入标注地址。
2.通过大数据自动生成。例如,通过对地址进行结构化,然后对每条地址缺失的部分进行尽可能的补齐,再将补齐后的地址合并到标注地址库中。
但是,通过人工录入的方式构建标注地址库,得到的标准地址库的准确率高,歧义少;但是缺点是成本巨大。全国数亿级别的POI(兴趣点),通过人工采集、核实,得到标注地址,耗时耗力。
另外,通过大数据自动生成标准通讯地址库,需要先对地址进行要素结构化,然后对缺失的要素部分依靠已有库进行补齐,再将补齐地址作为标注地址,汇集到标注地址库。但是这种方法存在以下限制:
a)补齐本身依赖一个已知的地址知识库,例如输入地址是“阿里巴巴西溪园区”,需要生成的结果是“浙江省杭州市区余杭区五常街道文一西路969号阿里巴巴西溪园区”;要实现上述结果,补齐过程所依赖的地址知识库就无法获取。
b)直接对地址进行补齐的结果,纳入标准地址库。会引入大量的歧义问题,因为输入的地址来源多样,会混入大量错误地址,对错误地址补齐后得到的标注地址,必然引来很大问题。比如“文一西路969号阿里巴巴西溪园区”和“文一西路111号阿里巴巴西溪园区”,通过大数据自动生成的方式就会生成2条标注地址,但是存在歧义。
针对上述无法对同一地址的不同写法进行统一的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种地址的标准化方法、装置、存储介质及处理器,以至少解决无法对同一地址的不同写法进行统一的技术问题。
根据本发明实施例的一个方面,提供了一种地址的标准化方法,包括:获取多个地址数据;将所述多个地址数据中的每个地址数据划分为多个地址要素;从所述多个地址要素中确定待索引地址要素,并从所述多个地址数据中获取包含所述待索引地址要素的地址数据;对所述包含所述待索引地址要素的地址数据中除所述待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811083773.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:短信的分类方法及装置
- 下一篇:上行语音业务的传输方法、装置、设备和存储介质