[发明专利]一种融合位置和语义约束的多源POI数据清洗方法有效

专利信息
申请号: 202210613379.8 申请日: 2022-05-31
公开(公告)号: CN114911787B 公开(公告)日: 2023-10-27
发明(设计)人: 陈振杰;许长青;徐润鹏;周琛;曾智伟;夏南;马磊;陈东 申请(专利权)人: 南京大学
主分类号: G06F16/215 分类号: G06F16/215;G06F40/216;G06F40/289
代理公司: 南京行高知识产权代理有限公司 32404 代理人: 赵洪玉
地址: 210023 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 位置 语义 约束 poi 数据 清洗 方法
【权利要求书】:

1.一种融合位置和语义约束的多源POI数据清洗方法,其特征在于执行如下步骤:

步骤1,对收集到的多源POI数据进行GeoHash转换,将二维坐标数据转换为字符串;

步骤2,对转换后的字符串进行邻近点查询;

步骤3,对步骤2中存在邻近点的窗口进行冗余处理,依次进行冗余数据处理、不完整数据处理、不一致数据处理和高相似数据处理;

步骤4,基于汉语语言模型Chinese Language Model和隐马尔可夫模型Hidden MarkovMode共同构建分词方案;

步骤5,对步骤4处理后的数据进行冗余处理;

步骤6,基于步骤5重新构建的分词方案的词频统计完成POI数据重匹配,实现所述多源POI数据清洗。

2.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:对转换后的字符串进行基于B+树方法以前缀匹配进行邻近点查询。

3.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:步骤3中对于冗余数据、不完整数据、不一致数据和高相似数据的处理分别如下,

冗余数据处理,对同平台数据连续追踪而导致的重复数据进行保留一条操作;对少量冗余数据的部分属性保持一致的情况,采用基于位置属性保留数据完备性最高的数据的方式处理;

不完整数据处理,首先和完备数据进行冗余判断,若定义为冗余数据则剔除,若为非冗余数据,则更进一步判断是否为不一致数据或高相似数据,并依照对应方式处理同时附加对应标签;

不一致数据处理,对于非邻近点的不一致数据,通过对不同地理服务平台多次地理解析和地址解析以核实POI点名称和位置;对于邻近点的不一致数据,选择其中被解析信息最多的位置数据作为实体位置信息,剔除其他不一致数据;

高相似数据处理,利用不一致数据处理方式对实体描述名称进行词组分割,建立相似数据索引并基于指定地域的区域映射库获得地址数据,并选择相对地理要素更全面的POI数据进行存储。

4. 根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:步骤4中,针对已有词表依赖的POI名称拆分使用Chinese Language Model进行处理;针对未被词表收录但需被划分的词语,使用Hidden Markov Mode基于字构词对POI名称分词进行划分。

5.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:步骤5中冗余处理过程与步骤3除处理对象不同外其余部分一致。

6.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:步骤6的重构过程中需确定与POI数据的名称相关的关键词以及对应关键词的词频,根据所述词频舍弃逆向文件频率,以此来选择高概率的关键词来对应相应的POI数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210613379.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top