[发明专利]一种面向大数据环境的通用中文地址匹配方法有效
申请号: | 201810970921.9 | 申请日: | 2018-08-24 |
公开(公告)号: | CN109165273B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 水新莹;张宇光;黄亚坤 | 申请(专利权)人: | 安徽讯飞智能科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/335 |
代理公司: | 芜湖思诚知识产权代理有限公司 34138 | 代理人: | 项磊 |
地址: | 241000 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 环境 通用 中文 地址 匹配 方法 | ||
1.一种面向大数据环境的通用中文地址匹配方法,其特征在于:包括如下步骤:
S1、数据预处理;
S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;
S3、定义多种距离计算公式,实现基于key-value计算各地址信息之间匹配关系的多种距离;
S4、基于对要素信息完成原始地址字符串的key-value形式转换,建立基于key-value的多种距离匹配模型,基于key值进行过滤搜索,然后循环计算待匹配地址与目标地址之间的多种距离,并由此计算综合匹配度,依据综合匹配度对目标地址进行排序;
S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果;
所述步骤S4中,对原始地址字符串中分类出的字母和数字信息按照倒序组合,构成具有标识特性的key,同时将解析后的中文地址要素信息组合形成value值,完成原始地址字符串的key-value形式转换。
2.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S1具体包括下列步骤:
步骤一、脏数据处理,基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗,修正乱码或重复字符;
步骤二、数字或字母信息预处理,地址信息中门牌信息中的中文数字信息转换为阿拉伯数字,字母信息统一转换为大写;
步骤三、正则提取出中文、字母和数字信息,添加分隔符完成提取分离。
3.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S2具体包括下列步骤:
步骤一、行政要素解析,行政要素包括国家、城市和行政区县;
步骤二、基本约束信息解析,基本约束信息包括街道、集镇、工业区和自然村;
步骤三、位置信息解析,位置信息包括建筑物信息和门牌号。
4.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S3中距离包括:
覆盖距离,即有限元素组成的有序集合之间,相同元素与长度较短集合的集合长度比值;
匹配距离,即有限元素组成的有序集合,从第一个元素进行对应匹配,直至匹配到元素不相等时的距离长度与较短集合的长度比值。
5.根据权利要求4所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S3中距离计算公式如下:
覆盖距离计算公式,若采用A,B分别表示有限元素集合,|A|,|B|分别表示A和B的集合长度,A∩B表示进行集合交集操作,则覆盖距离可采用下式表示:
匹配距离计算公式,对于上述集合A,B,A∧B表示从一个元素起进行连续匹配操作,则该距离可表示为:
6.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S4的具体步骤如下:
步骤一、将分离出的字母和数字信息进行倒排,即按照门牌号-单元号-楼栋号-小区号进行倒排,然后将该字符串拼上处理的时间戳构成Hbase数据库中的唯一索引key值,Value值即为解析的中文地址要素;
步骤二、根据上述设计的key-value数据库,对于目标地址,在目标地址中基于门牌号-单元号-楼栋号-小区号进行快速筛选;
步骤三、根据定义的距离计算公式循环计算待匹配地址与筛选出的目标地址之间的多种距离,若给定的覆盖距离和匹配距离的权重为α和β,则最终计算的综合匹配度如下所示:
inte_md=α*cd+β*md;
步骤四、根据综合匹配度的计算结果inte_md对筛选出的目标地址进行排序。
7.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:获取综合匹配度排序最高的目标地址作为最终的待选匹配地址,同时给定参数p,若综合匹配度小于p则说明该地址匹配度较低,结果为目标地址库无匹配项,否则接受排序最高的目标地址作为最终的待选匹配地址,完成地址匹配过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽讯飞智能科技有限公司,未经安徽讯飞智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810970921.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置