[发明专利]一种面向大数据环境的通用中文地址匹配方法有效
申请号: | 201810970921.9 | 申请日: | 2018-08-24 |
公开(公告)号: | CN109165273B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 水新莹;张宇光;黄亚坤 | 申请(专利权)人: | 安徽讯飞智能科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/335 |
代理公司: | 芜湖思诚知识产权代理有限公司 34138 | 代理人: | 项磊 |
地址: | 241000 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 环境 通用 中文 地址 匹配 方法 | ||
本发明公开了一种面向大数据环境的通用中文地址匹配方法,包括S1、数据预处理;S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;S3、定义多种距离计算公式,实现基于key‑value计算各地址信息之间匹配关系的多种距离;S4、基于对要素信息完成原始地址字符串的key‑value形式转换,建立基于key‑value的多种距离匹配模型并由此计算综合匹配度,据此对目标地址进行排序;S5、综合匹配度最大值是否大于给定阈值参数,并由此给出匹配结果。本发明将单条地址的匹配效率从1min左右降低到约2.2s;匹配结果在匹配度与精确度指标上更均衡,对推动智慧城市的构建具有较高的应用价值。
技术领域
本发明涉及大数据和智慧城市领域,具体涉及一种面向大数据环境的通用中文地址匹配方法。
背景技术
社区网格化的提出是建立智慧社区的重要基石,地址匹配技术在建立统一、便捷的社区一体化服务过程中起着至关重要的作用。地址匹配技术是将一条文字描述的地址信息与目标数据库中的地理坐标或地址信息进行映射的过程,对用户输入的地址信息,按照一定的切词、匹配算法,在地理编码数据库中进行查找匹配,根据匹配结果标记相应的空间坐标。
由于中文地址富含了大量语义信息,在处理过程中更为复杂。从中文地址要素分词解析来看,基于机械分词、统计分词和自然语言分词的地址匹配算法是当前主要的中文地址匹配方案。机械分词主要基于数据库中的字典对中文地址进行分词匹配。在匹配顺序上分为正向和逆向匹配,基于分词顺序依次找出匹配度最大的词;而逆向匹配是中文地址处理中的较为常用的匹配方法;统计分词主要研究上下文信息,如两个中文字符同时出现频率较高,则可以推断其构成一个词的概率高;而基于自然语言分词的地址匹配算法,由于中文地址包含了丰富的语义信息,同一地址可能存在多种表述形式,因此,结合语义信息进行地址要素解析能够有效提高匹配精确。
上述匹配算法在大数据规模中文地址匹配场景下,算法的执行效率和地址的匹配精确度普遍较差,大多数算法对匹配精确度更为关注,忽略了当前地址大数据环境下,地址信息中富含的海量、多样以及异构等特性,匹配效率较低,单条地址信息匹配需要1min左右。
发明内容
本发明的目的在于提供一种面向大数据环境的通用中文地址匹配方法,解决现有技术对中文地址处理效率、匹配率以及匹配度上的性能普遍较差的缺陷。
所述的面向大数据环境的通用中文地址匹配方法,包括以下步骤:
S1、数据预处理;
S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;
S3、定义多种距离计算公式,实现基于key-value计算各地址信息之间匹配关系的多种距离;
S4、基于对要素信息完成原始地址字符串的key-value形式转换,建立基于key-value的多种距离匹配模型,基于key值进行过滤搜索,然后循环计算待匹配地址与目标地址之间的多种距离,并由此计算综合匹配度,依据综合匹配度对目标地址进行排序;
S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果。
优选的,所述步骤S4中,对原始地址字符串中分类出的字母和数字信息按照倒序组合,构成具有标识特性的key,同时将解析后的中文地址要素信息组合形成value值,完成原始地址字符串的key-value形式转换。
优选的,所述步骤S1具体包括下列步骤:
步骤一、脏数据处理,基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗,修正乱码或重复字符;
步骤二、数字或字母信息预处理,地址信息中门牌信息中的中文数字信息转换为阿拉伯数字,字母信息统一转换为大写;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽讯飞智能科技有限公司,未经安徽讯飞智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810970921.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置