[发明专利]一种基于地点POI的大数据解析地址文本的方法有效
申请号: | 202011589770.6 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112732779B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 刘超群 | 申请(专利权)人: | 合肥市智享亿云信息科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/29;G06F16/34;G06F16/951;G06F40/205 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230000 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 地点 poi 数据 解析 地址 文本 方法 | ||
本发明涉及地址文本解析技术领域,具体为一种基于地点POI的大数据解析地址文本的方法,包括如下步骤:S1、城市POI基础数据处理;S2、匹配地址文本解析;S3、数据分析及可视化展示。本发明通过城市POI基础数据处理加匹配地址文本解析的方法,可实现对用户包裹地址的统计和分析,并可以精确定位地址文本,实现对用户包裹地址的精确分析统计,为邮政、物流公司或者电商企业等提供了有效的用户分布数据及画像,进而可为快递揽投部选址及人员配备提供决策依据。
技术领域
本发明涉及地址文本解析技术领域,具体为一种基于地点POI的大数据解析地址文本的方法。
背景技术
对于某些用户量庞大的邮政、物流公司或者电商企业等,存在大量的用户包裹地址,往往需要根据这些地址文本,统计和分析用户的分布情况。其中的难点就是如何精确定位这些地址文本。由于这些地址可能来自于第三方电商平台或由于用户输入错误,导致文本数据难以解析,这些地址文本的特点是:没有固定的格式,包含了随机的错字,地点的别名,甚至是不存在的地点。对这些地址直接使用第三方地图公司接口解析定位,会造成大量的偏差,无法达到统计分析的目的,使用其他常规的方法均难以准确分析处理。鉴于此,我们提出一种基于地点POI的大数据解析地址文本的方法。
发明内容
本发明的目的在于提供一种基于地点POI的大数据解析地址文本的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于地点POI的大数据解析地址文本的方法,包括如下步骤:
S1、城市POI基础数据处理;
S2、匹配地址文本解析;
S3、数据分析及可视化展示。
作为本发明优选的技术方案,S1中城市POI基础数据处理具体包括如下步骤:
S11:POI数据爬取;
S12:POI名称优化;
S13:POI别名自动处理;
S14:POI人工调优。
作为本发明优选的技术方案,S11中POI数据爬取的具体操作为:
a.对百度,高德地图,以多次、不同范围的矩形扫描方式爬取地点POI,同时可继续探索其他数据获取方式,包括其他网站,政府统计数据;
b.将爬取的POI数据分类存储到数据库。
作为本发明优选的技术方案,S12中POI名称优化的具体操作为:
a.去除明显无效及重复的数据;
b.POI名有包含关系,判断距离,如小于200米则合并且处理;
c.名称含“安徽省”、“合肥市”的,优化为“省”及“市”;针对地产类:如有且只有含有“一期”、“一栋”、“A座”,则去除“一期”、“一栋”、“A座”;
d.针对地产类写字楼:自动合并“A座”、“A栋”并重命名,去掉“B座”、“C座”等。
作为本发明优选的技术方案,S13中POI别名自动处理的具体操作为:
1)针对地产类:
a.智能提取“-”及“·”中的前缀,如“万科-金色名郡”,提取“万科”并保存到tag_poi;
b.遇到类似“万科-金色名郡”、“万科金色名郡”,智能添加备注“金色名郡”;
2)针对政府单位类:
a.XX村村民员会,可简称为XX村委;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥市智享亿云信息科技有限公司,未经合肥市智享亿云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011589770.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置