[发明专利]一种融合位置和语义约束的多源POI数据清洗方法有效
申请号: | 202210613379.8 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114911787B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 陈振杰;许长青;徐润鹏;周琛;曾智伟;夏南;马磊;陈东 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F40/216;G06F40/289 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 赵洪玉 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 位置 语义 约束 poi 数据 清洗 方法 | ||
本发明涉及一种融合位置和语义约束的多源POI数据清洗方法,属于数据处理技术领域。该方法执行如下步骤:步骤1,对收集到的多源POI数据进行GeoHash转换;步骤2,对转换后的字符串进行邻近点查询;步骤3,对步骤2中存在邻近点的窗口进行冗余处理;步骤4,构建分词方案;步骤5,对步骤4处理后的数据进行冗余处理;步骤6,基于步骤5重新构建的分词方案的词频统计完成POI数据重匹配。该方法能更加准确高效地完成数据清洗工作,清洗结果更加优秀,更切合实际且行之有效。
技术领域
本发明涉及一种融合位置和语义约束的多源POI数据清洗方法,属于数据处理技术领域。
背景技术
随着以博客、社交网络、基于位置的服务LBS为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,数据正以前所未有的速度不断地增长和累积,各个领域正不断尝试挖掘大数据之下的隐藏信息。但随着数据量大幅度提升,数据质量也正在不断下降。大数据环境下,来自异构系统的各类数据存在若干问题:①杂乱性,各应用系统的数据缺乏统一标准的定义,具有较大的不一致性。②重复性,对于同一个客观事物在数据库中存在其两个或两个以上完全相同的物理描述。③模糊性,由于系统设计时存在的缺陷以及一些使用过程中的人为因素,导致数据记录中出现属性值丢失不确定的现象。
正是由于上述现状,数据清洗在数据分析与管理的过程中扮演着越来越重要的角色。数据清洗旨在识别和纠正数据中的噪声,将噪声对数据分析结果的影响降至最低。POI作为大数据的组成部分,是位置服务的重要载体,直接掌控着位置服务研究的质量。为获得更多更全面的POI数据,研究学者/技术人员试图从多个数据源中获取数据,但与之带来的是冗余数据的增加,不完整数据的出现等问题。
发明内容
本发明要解决的技术问题是:如何提供一种多源POI数据清洗方法。
为了解决上述技术问题,本发明提出的技术方案是:一种融合位置和语义约束的多源POI数据清洗方法,执行如下步骤,
步骤1,对收集到的多源POI数据进行GeoHash转换,将二维坐标数据转换为字符串;
步骤2,对转换后的字符串进行邻近点查询;
步骤3,对步骤2中存在邻近点的窗口进行冗余处理,依次进行冗余数据处理、不完整数据处理、不一致数据处理和高相似数据处理;
步骤4,基于汉语语言模型Chinese Language Model和隐马尔可夫模型HiddenMarkov Mode共同构建分词方案;
步骤5,对步骤4处理后的数据进行冗余处理;
步骤6,基于步骤5重新构建的分词方案的词频统计完成POI数据重匹配,实现所述多源POI数据清洗。
上述技术方案的改进是:对转换后的字符串进行基于B+树方法以前缀匹配进行邻近点查询。
上述技术方案的改进是:步骤3中对于冗余数据、不完整数据、不一致数据和高相似数据的处理分别如下,
冗余数据处理,对同平台数据连续追踪而导致的重复数据进行保留一条操作;对少量冗余数据的部分属性保持一致的情况,采用基于位置属性保留数据完备性最高的数据的方式处理;
不完整数据处理,首先和完备数据进行冗余判断,若定义为冗余数据则剔除,若为非冗余数据,则更进一步判断是否为不一致数据或高相似数据,并依照对应方式处理同时附加对应标签;
不一致数据处理,对于非邻近点的不一致数据,通过对不同地理服务平台多次地理解析和地址解析以核实POI点名称和位置;对于邻近点的不一致数据,选择其中被解析信息最多的位置数据作为实体位置信息,剔除其他不一致数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210613379.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有机混酸分离纯化方法
- 下一篇:一种定位压紧组件及其形成定位装置和方法