[发明专利]一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台在审
申请号: | 201310567022.1 | 申请日: | 2013-11-15 |
公开(公告)号: | CN103744854A | 公开(公告)日: | 2014-04-23 |
发明(设计)人: | 张鹏;曾汀;朱军 | 申请(专利权)人: | 北京正图数创信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 仓储 挖掘 技术 地址 匹配 平台 | ||
技术领域
本发明涉及一种地址数据匹配挖掘平台,尤其是一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台。
背景技术
地址匹配指建立地理位置坐标与给定地址一致性的过程。也是指在地图上找到并标明每条地址所对应的位置。地址匹配要求能够将任何数据移植到空间坐标系中,这个过程包括对数据的准确分类和注册,以及使所有的数据能够与一个空间坐标系建立关联。
这些工作如以人工的方式在地图数据中加以标示的话,将会需要相当的人力物力,而且存在较大的主观因素,不易检查其正确性。如果这些地址资料通过地址匹配功能,和GIS联系则可以很快在地图上标示要素在空间的分布情况,以及周围的公共设施等。因此,地理匹配在城市空间定位和分析领域内具有非常广泛的应用。
中国现有的地名、地址体系异常复杂,地名相对混乱、无序,规律性低和缺乏统一的标准。市场上同类产品通常依据地址字符串智能地匹配出地理坐标值。但是地址编码管理器采用的地址模型太过复杂,加上软件功能开发太过简单,在具体应用中地址匹配率很低,匹配准确性差,通常不超过10%,仍需通过大量的人工现场采集来提高匹配的准确率。
发明内容
为解决上述问题,本发明提供了一种自动化程度高,操作简单易学基于大数据仓储、挖掘技术的地址数据匹配挖掘平台。
实现本发明目的的一种自动化程度高的基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:
(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作。
(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核。
(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误。
(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
本产品采用基于大数据仓储、挖掘的地址匹配技术来进行地址的检索、定位。核心技术包含了元数据仓储、非结构化数据全文检索引擎、要素层级匹配法、正则表达式法以及基于自然语言理解的中文地址匹配法,来建立空间关系地址模型、地址库逻辑模型,实现了地址信息的空间知识表达。
本产品的发明可以大大提高自动匹配的效率,减少以往人工采集地理位置的工作,节约大量人力物力。
附图说明
图1为本发明的总体流程图
具体实施方式
如图1所示,本发明的一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:
(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作。
(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核。
(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京正图数创信息技术有限公司,未经北京正图数创信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310567022.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于空气净化器的冷触媒过滤网
- 下一篇:中央空调变流量优化系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置